← AI 動態 The Decoder

研究揭示:推理模型為何經常思考超出解決方案

新研究顯示,大型推理模型經常思考超出正確答案,因為它們知道自己何時完成,但常見的採樣方法不允許它們停止

推理模型 採樣方法 AI 研究
研究揭示:推理模型為何經常思考超出解決方案

研究發現,大型推理模型在解答問題時經常會思考超出正確答案,進行交叉檢查、重述和確認。這是因為它們知道自己何時完成,但常見的採樣方法不允許它們停止。這個問題在之前的研究中已經被發現,例如Deepseek-R1和QwQ-32B的答案長度和準確度的比較。這個研究的結果對於我們理解推理模型的行為和提高其效率有重要意義。未來的研究可以關注如何改進採樣方法,以使推理模型更有效地停止思考,從而提高整體性能。