← AI 動態 The Decoder

OpenAI 新訓練數據集教導 AI 模型區分可信指令

OpenAI 發布 IH-Challenge 訓練數據集,讓 AI 模型學會優先處理可信指令,提高安全性和防禦能力

OpenAI AI 訓練 安全性
OpenAI 新訓練數據集教導 AI 模型區分可信指令

OpenAI 的新訓練數據集 IH-Challenge 使用強化學習教導 AI 模型區分不同級別的指令,從系統到開發者到用戶到工具。這個數據集已經被用於訓練 GPT-5 Mini-R 模型,結果表明這個模型可以更可靠地優先處理指令,並且更好地防禦prompt injection 攻擊。這個能力對於具有自主呼叫工具和處理外部文件的 AI 模型來說是至關重要的。開發者可以在 Hugging Face 平台上訪問這個數據集。