← AI 動態
The Decoder
Google 最新研究:現行 AI 評測標準不可靠?專家指出 3 到 5 位評分員遠遠不夠
Google 與羅徹斯特理工學院研究發現,目前的 AI 基準測試過於依賴少數評分者,導致結果不穩定。研究建議每題需至少 10 位評分員,並強調正確分配標註預算比單純增加資源更重要。
AI 評測
Google 研究
模型評估
在開發 AI 模型時,開發者通常會聘請 3 到 5 位人類專家對生成的內容進行評分,並以多數決作為基準。然而,Google 最新的研究指出,這種傳統做法嚴重忽略了人類對複雜問題的真實分歧。由於評分人數太少,這些基準測試往往無法產生穩定且可靠的評估結果,導致我們可能誤判 AI 的真實表現。
研究強調,標註預算的分配邏輯至關重要。為了獲得可靠的數據,研究建議每個測試範例至少需要 10 位以上的評分員參與。這對一般大眾與企業開發者來說是一個警訊:我們在判斷 AI 是否「聰明」或「安全」時,所依賴的成績單可能存在瑕疵。未來在評估模型時,除了追求數據量,更應重視評分共識的多樣性與標註品質的平衡。