← AI 動態 2026-03-31 The Decoder

AI 睜眼說瞎話？史丹佛揭露多模態模型沒看圖也能「腦補」描述，現行評測標準面臨重大漏洞

史丹佛大學研究發現，GPT-5 等多模態模型在無圖像輸入時，仍能自信描述細節甚至進行診斷，其評測分數竟能達有圖時的八成，暴露出目前 AI 視覺評估的巨大盲點。

史丹佛大學的最新研究指出，當前頂尖的多模態模型（如 GPT-5、Gemini 3 Pro 等）在處理視覺任務時存在嚴重缺陷。研究發現，即便完全不提供圖片，這些模型依然能產出詳盡的影像描述或醫療診斷建議。更驚人的是，在標準的視覺評測（Benchmarks）中，模型在「無圖」狀態下的得分竟然能達到原始成績的 70% 到 80%。這顯示模型並非真的「看懂」圖片，而是根據問題中的文字線索，結合預訓練時的龐大資料庫進行「腦補」與統計推論。

這項發現對 AI 開發與應用具有重大意義，它戳破了多模態模型具備高度視覺理解能力的假象。現有的評測指標顯然無法有效區分模型是基於真實的「視覺辨識」還是僅僅依靠「文字聯想」來回答。對於一般使用者而言，這提醒我們在依賴 AI 進行影像分析（如判讀醫療影像或商品辨識）時必須保持警覺，因為模型可能會以極其自信的語氣描述不存在的視覺細節。這類「多模態幻覺」可能導致嚴重的誤導，開發者在導入相關技術時應重新評估其可靠性。

AI 睜眼說瞎話？史丹佛揭露多模態模型沒看圖也能「腦補」描述，現行評測標準面臨重大漏洞

相關講座