← AI 動態 2026-03-13 The Decoder

xAI 發佈 Grok 4.20：雖性能不及 GPT-5.4 但「幻覺率」創歷史新低

xAI 推出新一代 Grok 4.20 模型，儘管在綜合性能基準測試中仍落後於 Gemini 與 GPT-5.4，但在抑制 AI 幻覺方面打破紀錄。該模型具備低成本、高速度特性，並支援 200 萬代幣的超長上下文。

馬斯克旗下的 xAI 正式推出 Grok 4.20。根據 Artificial Analysis 的最新數據，該模型在「智慧指標」得分為 48，雖較前代顯著提升，但與競爭對手 Gemini 3.1 Pro 及 GPT-5.4 的 57 分仍有顯著差距。然而，Grok 4.20 在一項關鍵指標上勝出：它的幻覺率（Hallucination rate）為所有測試模型中最低，能更精確地提供事實內容而不輕易捏造資訊。

這款模型提供推理、非推理與多智能體（Multi-agent）三種 API 模式，且具備 200 萬代幣的超大上下文視窗。對一般用戶與開發者而言，這代表能以更低的預算處理極長文件，同時獲得更高可靠性的回答。對於追求資訊準確性而非單純邏輯難度的企業級應用場景，Grok 4.20 將展現極強的實戰價值。

xAI 發佈 Grok 4.20：雖性能不及 GPT-5.4 但「幻覺率」創歷史新低

相關講座