← AI 動態 2026-03-12 The Decoder

測試過了也沒用？研究指半數 AI 生成程式碼仍遭真人開發者退件

最新研究指出，熱門的 AI 程式評測基準 SWE-bench 過於樂觀。研究發現，即便 AI 產出的程式碼通過了自動化測試，仍有近半數因功能錯誤等問題，會被真實世界的專案維護者拒絕。

研究機構 METR 的最新調查對 AI 程式開發能力提出了挑戰。透過四位資深開源開發者審核 296 份 AI 生成的程式碼貢獻，結果顯示那些成功通過業界標準「SWE-bench Verified」測試的方案中，約有一半在現實開發場景中會被退件。這顯示目前的 AI 評測標準與真實軟體工程需求之間，存在著顯著的認知落差。

更值得注意的是，這些被退件的原因並非僅是程式碼風格不佳或排版問題，更多是涉及核心的功能性錯誤。這反映出 AI 雖然能針對測試案例進行「解題」，卻未必能真正理解複雜系統的深層邏輯。對於一般開發者或企業而言，這提醒我們在導入 AI 自動化編碼工具時，仍需嚴謹的真人審查（Code Review），不可過度依賴目前的自動化評估指標。

測試過了也沒用？研究指半數 AI 生成程式碼仍遭真人開發者退件

相關講座