← AI 動態 2026-04-05 The Decoder

Google 最新研究：現行 AI 評測標準不可靠？專家指出 3 到 5 位評分員遠遠不夠

Google 與羅徹斯特理工學院研究發現，目前的 AI 基準測試過於依賴少數評分者，導致結果不穩定。研究建議每題需至少 10 位評分員，並強調正確分配標註預算比單純增加資源更重要。

在開發 AI 模型時，開發者通常會聘請 3 到 5 位人類專家對生成的內容進行評分，並以多數決作為基準。然而，Google 最新的研究指出，這種傳統做法嚴重忽略了人類對複雜問題的真實分歧。由於評分人數太少，這些基準測試往往無法產生穩定且可靠的評估結果，導致我們可能誤判 AI 的真實表現。

研究強調，標註預算的分配邏輯至關重要。為了獲得可靠的數據，研究建議每個測試範例至少需要 10 位以上的評分員參與。這對一般大眾與企業開發者來說是一個警訊：我們在判斷 AI 是否「聰明」或「安全」時，所依賴的成績單可能存在瑕疵。未來在評估模型時，除了追求數據量，更應重視評分共識的多樣性與標註品質的平衡。

Google 最新研究：現行 AI 評測標準不可靠？專家指出 3 到 5 位評分員遠遠不夠

相關講座