← AI 動態 2026-02-25 The Decoder

OpenAI 要退役熱門 AI 編程Benchmark

OpenAI認為熱門的SWE-bench Verified Benchmark已失去衡量AI編程能力的意義，因為大部分任務存在缺陷，且領先模型已在訓練中見過答案

OpenAI指出，SWE-bench Verified Benchmark的任務中，有59.4%存在缺陷，拒絕正確的解決方案，因為它們強制實現特定的細節或檢查未在任務中描述的函數。此外，許多任務和解決方案已經洩漏到領先模型的訓練數據中，導致模型的進步反映的是它已經見過的內容，而不是它的編程能力。這意味著Benchmark的分數衡量的是記憶力，而不是真正的編程能力。這個問題對於AI的發展和評估具有重要意義，因為它影響了我們對AI編程能力的認知和評估。因此，OpenAI認為有必要退役這個Benchmark，發展新的評估標準，以更好地衡量AI的編程能力。

OpenAI 要退役熱門 AI 編程Benchmark

相關講座