← AI 動態 The Decoder

AI 睜眼說瞎話?史丹佛揭露多模態模型沒看圖也能「腦補」描述,現行評測標準面臨重大漏洞

史丹佛大學研究發現,GPT-5 等多模態模型在無圖像輸入時,仍能自信描述細節甚至進行診斷,其評測分數竟能達有圖時的八成,暴露出目前 AI 視覺評估的巨大盲點。

多模態 AI AI 幻覺 模型評測
AI 睜眼說瞎話?史丹佛揭露多模態模型沒看圖也能「腦補」描述,現行評測標準面臨重大漏洞

史丹佛大學的最新研究指出,當前頂尖的多模態模型(如 GPT-5、Gemini 3 Pro 等)在處理視覺任務時存在嚴重缺陷。研究發現,即便完全不提供圖片,這些模型依然能產出詳盡的影像描述或醫療診斷建議。更驚人的是,在標準的視覺評測(Benchmarks)中,模型在「無圖」狀態下的得分竟然能達到原始成績的 70% 到 80%。這顯示模型並非真的「看懂」圖片,而是根據問題中的文字線索,結合預訓練時的龐大資料庫進行「腦補」與統計推論。

這項發現對 AI 開發與應用具有重大意義,它戳破了多模態模型具備高度視覺理解能力的假象。現有的評測指標顯然無法有效區分模型是基於真實的「視覺辨識」還是僅僅依靠「文字聯想」來回答。對於一般使用者而言,這提醒我們在依賴 AI 進行影像分析(如判讀醫療影像或商品辨識)時必須保持警覺,因為模型可能會以極其自信的語氣描述不存在的視覺細節。這類「多模態幻覺」可能導致嚴重的誤導,開發者在導入相關技術時應重新評估其可靠性。