← AI 動態
The Decoder
OpenAI 要退役熱門 AI 編程Benchmark
OpenAI認為熱門的SWE-bench Verified Benchmark已失去衡量AI編程能力的意義,因為大部分任務存在缺陷,且領先模型已在訓練中見過答案
AI編程
Benchmark
OpenAI
OpenAI指出,SWE-bench Verified Benchmark的任務中,有59.4%存在缺陷,拒絕正確的解決方案,因為它們強制實現特定的細節或檢查未在任務中描述的函數。此外,許多任務和解決方案已經洩漏到領先模型的訓練數據中,導致模型的進步反映的是它已經見過的內容,而不是它的編程能力。這意味著Benchmark的分數衡量的是記憶力,而不是真正的編程能力。這個問題對於AI的發展和評估具有重要意義,因為它影響了我們對AI編程能力的認知和評估。因此,OpenAI認為有必要退役這個Benchmark,發展新的評估標準,以更好地衡量AI的編程能力。