← AI 動態 The Decoder

新benchmark ARC-AGI-3 挑戰 AI 匹敵人類智慧

ARC-AGI-3 benchmark測試AI系統在互動環境中的智慧,目前尚無模型能達到1%的表現

AI benchmark 智慧
新benchmark ARC-AGI-3 挑戰 AI 匹敵人類智慧

ARC-AGI-3是一個新的benchmark,旨在測試AI系統在互動、基於回合的遊戲環境中的智慧。這個benchmark要求AI代理自行探索環境、形成假設、了解目標並執行計劃。目前,儘管有許多先進的模型參與測試,但仍然沒有任何一個模型能夠達到1%的表現。這個結果凸顯了AI系統在匹敵人類智慧方面仍然存在的巨大挑戰。ARC Prize Foundation為能夠匹敵人類智慧的AI系統提供了200萬美元的獎勵,鼓勵研究人員繼續努力改進AI的性能。這個benchmark的結果不僅對AI研究具有重要意義,也對未來的人機協作和智慧系統的開發具有深遠的影響。