← AI 動態 The Decoder

測試過了也沒用?研究指半數 AI 生成程式碼仍遭真人開發者退件

最新研究指出,熱門的 AI 程式評測基準 SWE-bench 過於樂觀。研究發現,即便 AI 產出的程式碼通過了自動化測試,仍有近半數因功能錯誤等問題,會被真實世界的專案維護者拒絕。

AI 程式開發 軟體工程 基準測試
測試過了也沒用?研究指半數 AI 生成程式碼仍遭真人開發者退件

研究機構 METR 的最新調查對 AI 程式開發能力提出了挑戰。透過四位資深開源開發者審核 296 份 AI 生成的程式碼貢獻,結果顯示那些成功通過業界標準「SWE-bench Verified」測試的方案中,約有一半在現實開發場景中會被退件。這顯示目前的 AI 評測標準與真實軟體工程需求之間,存在著顯著的認知落差。

更值得注意的是,這些被退件的原因並非僅是程式碼風格不佳或排版問題,更多是涉及核心的功能性錯誤。這反映出 AI 雖然能針對測試案例進行「解題」,卻未必能真正理解複雜系統的深層邏輯。對於一般開發者或企業而言,這提醒我們在導入 AI 自動化編碼工具時,仍需嚴謹的真人審查(Code Review),不可過度依賴目前的自動化評估指標。