← AI 動態
The Decoder
xAI 發佈 Grok 4.20:雖性能不及 GPT-5.4 但「幻覺率」創歷史新低
xAI 推出新一代 Grok 4.20 模型,儘管在綜合性能基準測試中仍落後於 Gemini 與 GPT-5.4,但在抑制 AI 幻覺方面打破紀錄。該模型具備低成本、高速度特性,並支援 200 萬代幣的超長上下文。
xAI
Grok 4.20
AI 幻覺
大型語言模型
效能評測
馬斯克旗下的 xAI 正式推出 Grok 4.20。根據 Artificial Analysis 的最新數據,該模型在「智慧指標」得分為 48,雖較前代顯著提升,但與競爭對手 Gemini 3.1 Pro 及 GPT-5.4 的 57 分仍有顯著差距。然而,Grok 4.20 在一項關鍵指標上勝出:它的幻覺率(Hallucination rate)為所有測試模型中最低,能更精確地提供事實內容而不輕易捏造資訊。
這款模型提供推理、非推理與多智能體(Multi-agent)三種 API 模式,且具備 200 萬代幣的超大上下文視窗。對一般用戶與開發者而言,這代表能以更低的預算處理極長文件,同時獲得更高可靠性的回答。對於追求資訊準確性而非單純邏輯難度的企業級應用場景,Grok 4.20 將展現極強的實戰價值。