← M05 生成式 AI M05 生成式 AI

M05.08|AI 幻覺與事實查核:生成式 AI 的可靠性問題

AI 說得頭頭是道,但它可能在一本正經地胡說八道

L1-AI基礎知識-AI幻覺 L1-AI應用規劃-AI可靠性
AI幻覺 事實查核 可靠性 RAG Grounding 幻覺偵測 生成式AI風險
📋

本講學習重點

AI 幻覺是什麼?為什麼「幻覺」這個比喻很貼切?
從 LLM 的生成機制看,幻覺為什麼幾乎是不可避免的?
AI 幻覺分哪幾種類型?各自的危害程度有何差異?
RAG 能完全消除幻覺嗎?還有哪些互補的緩解策略?
如何設計一個系統性的幻覺率測量方法?

AI 幻覺的定義: 模型生成了與事實不符、或無法被外部資料支撐的內容, 但模型呈現時的「自信程度」與正確內容無異,無法從語氣上區分真假。 「幻覺」比「謊言」更準確:模型不是有意欺騙,而是概率生成機制產生的副產物。 幻覺的根本成因: 1. 概率採樣機制:LLM 每次生成是從概率分布中「採樣」,有機率選到低概率但看似合理的詞 2. 訓練資料的知識截止:對截止日後的事件,模型沒有真實資料,只能「外推」 3. 訓練資料的雜訊:訓練集中本身就有錯誤資訊 4. 泛化壓力:模型被要求回答所有問題,但實際上很多問題超出其知識邊界 三類幻覺: - 事實型幻覺:捏造不存在的事件、人名、數據、引用 - 邏輯型幻覺:推理步驟看似合理但結論錯誤(如算術錯誤、因果顛倒) - 引用型幻覺:引用不存在的論文、法條、書籍,連 DOI 和作者名都「看起來真實」 緩解策略: 1. RAG:從可信來源檢索後再生成,讓回答有文件依據 2. Grounding:明確要求模型「只能根據提供的資料回答」 3. 自我反思(Self-reflection):讓模型生成後再自我核查 4. 外部驗證:用規則引擎或其他模型交叉驗證輸出 5. 不確定性表達訓練:讓模型學會說「我不確定」而非捏造答案 幻覺率測量: - 黃金標準資料集:人工標注的題目,有明確正確答案,機器評分 - TruthfulQA、HaluEval 等基準測試 - 領域特化測試集:企業自建,針對自身業務場景的事實核查

📌 AI 幻覺是 LLM 概率生成機制的固有副產物: 模型並不「知道」自己知道什麼和不知道什麼,只是在生成看似合理的文字序列。 幻覺分為事實型、邏輯型、引用型三類,危害程度各異。 RAG、Grounding、人工複核是目前最有效的緩解組合, 但無法從根本上消除幻覺——因此高風險場景(醫療、法律、財務) 必須保留人類最終審核,不能讓 AI 成為唯一決策者。
AI 幻覺與事實查核:生成式 AI 的可靠性問題

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

AI 幻覺(Hallucination)是指大型語言模型在沒有足夠知識支撐的情況下,仍然生成看起來流暢、自信、有條理,但實際上是錯誤的或虛構的內容——它不是在說謊,而是在以概率機制「瞎猜」,但猜出來的結果有時能以假亂真。


白話解說

幻覺是什麼:為什麼「幻覺」這個詞如此貼切?

2023 年,一名美國律師在聯邦法院的案件中,使用 ChatGPT 協助撰寫法律簡報,其中引用了六個案例,包含完整的案號、審判日期、法院名稱和判決摘要——看起來真實無比。但對方律師查核後發現,這六個案例全部不存在,是 ChatGPT 憑空生成的,每一個細節都是虛構的。法官大怒,那名律師被罰款 5000 美元,職業聲譽嚴重受損。

這就是 AI 幻覺最典型、最危險的形態。「幻覺」這個詞源自心理學,指的是在沒有外部刺激的情況下,大腦自行生成了虛假的感知體驗。用在 AI 上,它描述的是一種特定的失效模式:模型生成了與外部事實不符的內容,但它在生成這些內容時的「語氣自信程度」與生成正確內容時完全相同。你無法從模型的措辭語氣來判斷它說的是真實還是虛構——它永遠看起來同樣確定、同樣流暢。

比「錯誤」更準確的說法是「幻覺」,因為「錯誤」暗示了某種失誤的意圖,而 AI 幻覺本質上是系統性的機制副產物,不是偶然的疏失。把幻覺理解為一種可以被工程手段緩解(但目前無法完全消除)的系統特性,比把它理解為「AI 說謊」更有助於我們正確應對它。

幻覺的根本成因:概率機器的固有困境

要理解 AI 幻覺為什麼幾乎不可避免,必須回到 LLM 的生成機制。LLM 在每一步生成中,做的事情是:給定目前為止的所有文字,計算詞彙表中每個詞在下一個位置出現的概率,然後從這個分布中採樣一個詞。整個回答是一個詞接一個詞累積起來的概率採樣過程。

問題在於,這個機制根本不區分「我確定知道這個事實」和「這個詞出現在這個上下文中看起來很合理」。對模型而言,兩者都只是概率分布,只是數值高低不同。當被問到「台北 101 有幾層?」,模型會生成「101 層」,這恰好是正確的,因為「101 層」這個說法在訓練資料中出現的次數多,概率高。但如果被問到某個相對小眾的歷史人物的出生年份,而訓練資料中對這個資訊的記載很少,模型仍然會生成一個「看起來合理的年份」,因為它的機制就是要生成一個回答,而不是說「我不知道」。

四個主要的幻覺成因值得特別關注。知識截止效應:模型的知識停在訓練截止日,對之後發生的事完全不知道,但若有人問它截止後的事件,它很可能外推生成一個「聽起來合理」的答案。訓練資料雜訊:網路上本身就有大量不準確的資訊,模型在這些資料上訓練,學到了一些錯誤的「事實」。知識邊界模糊:模型沒有一個「我不知道的清單」,它甚至不知道自己的知識邊界在哪裡。泛化壓力:RLHF 訓練讓模型傾向於給出有幫助的回答,這種壓力有時會讓模型在沒有知識的情況下仍然「勇敢地回答」,而不是誠實地說「我不確定」。

三種幻覺類型:各有不同的危害程度

事實型幻覺(Factual Hallucination) 是最常見的類型:模型生成了與可驗證事實不符的內容。例如「台灣第一家便利商店是 7-11,於 1979 年在台北開業」(正確年份是 1978 年),或者「愛因斯坦出生於德國慕尼黑」(正確是德國烏爾姆)。這類幻覺通常可以透過外部查核發現,危害程度取決於應用場景的嚴格程度——在寫作輔助中影響較小,在新聞報導或學術引用中則可能造成嚴重後果。

引用型幻覺(Citation Hallucination) 是事實型幻覺中最隱蔽的一種,也是法律、學術、醫療場景中最危險的類型。模型能夠生成完全真實感的學術引用——作者名、期刊名稱、年份、卷期號、頁碼、甚至摘要——但這些期刊文章根本不存在。這種幻覺之所以危險,是因為它「打扮得非常完整」,形式上看起來像是有嚴格查核的資料,讀者很容易省去驗證步驟。哈佛大學一項 2024 年的研究發現,在要求 GPT-4 提供學術引用的測試中,約 27% 的引用在 Google Scholar 或 PubMed 中查不到。

邏輯型幻覺(Reasoning Hallucination) 是推理過程中的錯誤,輸入資料和推理步驟看起來合理,但中間某個步驟的邏輯跳躍導致結論錯誤。這在數學計算、多步驟推理、因果分析中最常見。例如:「小明有 5 顆糖,他給了小華三分之一,請問小明剩下多少顆?答:5 × (1 - 1/3) = 5 × 2/3 ≈ 3.33 顆」(正確應是 5 - 5/3 ≈ 3.67 顆,但更根本的問題是這道題答案應該是整數,說明題目設定有問題,但 AI 不會指出這個矛盾)。邏輯型幻覺因為推理過程看起來「有條有理」,往往比事實型幻覺更難被一般用戶察覺。

緩解策略:沒有銀彈,但有組合拳

RAG(檢索增強生成) 是目前最廣泛採用的幻覺緩解方案。核心思路是:在生成回答之前,先從可信的知識庫(公司文件、產品手冊、法規資料庫)中檢索相關段落,把這些段落作為「上下文」注入 Prompt,並明確要求模型「只根據提供的資料回答,如果資料中沒有相關資訊,請明確說明」。RAG 能有效減少「依賴模型內建知識猜測」的情況,但它不是萬能的:如果檢索到的文件本身有錯誤、或者模型在整合多個文件的資訊時發生邏輯錯誤,幻覺仍然可能發生。

Grounding(事實接地) 是比 RAG 更廣義的概念,指所有讓模型的輸出「錨定在可驗證來源」的技術設計。除了 RAG,還包括:要求模型在每個關鍵陳述後引用來源(Source Attribution)、設定系統提示詞要求模型明確標示不確定的資訊、以及在應用層做格式化輸出驗證(確保輸出的日期格式、數字範圍符合預期)。

自我反思(Self-reflection) 是一種讓模型先生成回答,再讓它用另一個 Prompt 扮演「審稿人」角色來核查自己回答中的事實陳述的技術。研究顯示,分兩步走(生成→審查)比一步生成的幻覺率更低,因為在審查階段,模型有機會從不同角度重新評估陳述的合理性。這也是 Chain-of-Thought(思維鏈)提示技術能減少邏輯型幻覺的原因——讓模型把推理過程顯示出來,每一步都可以被核查。

人工審核(Human Review) 是目前在高風險場景中無可取代的最後一道防線。對於醫療、法律、財務等決策後果嚴重的場景,即使做了所有技術緩解措施,也必須設計流程讓領域專業人員在 AI 輸出被使用前進行審閱。AI 提供初稿和分析,人類負責最終核准——這個「人機協作」的閉環是當前技術水準下最負責任的部署方式。

測量幻覺率:讓可靠性可量化

要改善幻覺問題,首先必須能夠測量它。目前主要的幻覺率測量方法有以下幾種:

標準基準測試是由學術界設計的公開測試集,例如 TruthfulQA(包含 817 個設計來誘導模型給出常見錯誤答案的問題)、HaluEval(包含事實核查和摘要幻覺評估)。這些測試集可以在不同模型之間做橫向比較,但通用基準測試不能代替你在特定業務場景中的實際幻覺風險。

領域特化評估集才是企業部署 AI 時真正需要建立的。方法是:收集你的業務場景中的代表性問題(應涵蓋高風險的事實查核題目),由領域專家標注正確答案,讓 AI 回答這些問題,再由專家評估回答的事實準確率。這個「黃金標準測試集」應該定期更新,並在每次更換模型版本或調整 Prompt 設計時重新跑一次,確保幻覺率維持在可接受範圍內。

一個可操作的幻覺率定義建議:「在 N 個標準測試問題中,AI 輸出中包含至少一個無法被外部來源驗證的事實陳述的回答比例」。對不同場景設定不同的可接受閾值(如:一般資訊查詢可接受 < 5%,醫療建議類應達 < 1%)。


應用場景

應用場景 幻覺風險等級 主要危害 建議緩解組合
客服問答(產品規格) 誤導客戶做出錯誤購買決定 RAG(產品目錄)+ 來源引用
法律文件起草輔助 引用不存在的法條或判例,造成訴訟風險 RAG(法規資料庫)+ 律師審閱
醫療資訊查詢 極高 錯誤的醫療建議可能危及生命 RAG(醫學文獻)+ 醫師審閱 + 免責聲明
財務報告摘要 數字或公司資訊錯誤,影響投資決策 結構化輸出驗證 + 財務人員審閱
新聞內容寫作輔助 虛假事實散播,損害媒體公信力 事實查核資料庫 RAG + 記者人工核查
創意寫作協助 虛構故事中的「幻覺」反而是創意資產 無需特別緩解(明確標示為虛構)
程式碼生成 生成使用不存在 API 的代碼(幻覺函式名) 單元測試自動執行 + 開發者審閱
教育學習輔助 中高 學生接受錯誤資訊影響學習 引用教科書 RAG + 教師監督使用

常見誤區

誤區一:用更大的模型就能解決幻覺問題

雖然更大的模型(更多參數)在各種基準測試上通常表現更好,包括幻覺率更低,但「更大」並不能從根本上消除幻覺。幻覺的根本成因(概率採樣機制、知識邊界模糊)在更大的模型上同樣存在。某些研究甚至發現,在特定的引用型幻覺上,更大的模型表現未必優於小模型,因為大模型更「自信」,在知識邊界上更不容易說「我不確定」。解決幻覺不是一個「擴大模型規模」的問題,而是一個需要系統設計(RAG、Grounding、人工審核)的工程問題。對高風險應用來說,即使使用最新的旗艦模型,也絕對不能省略核查機制。

誤區二:只要要求 AI「不要胡說」,它就不會幻覺了

很多人以為在 System Prompt 中加上「你必須只提供準確的事實,不可以猜測」就能解決幻覺。這種方法確實有輕微幫助(讓模型在不確定時更傾向說「我不知道」),但效果非常有限,無法作為主要緩解手段。原因是:模型無法在生成時「感知」自己的知識是否可靠——它沒有一個「事實驗證層」,它的生成過程就是概率採樣,即使被要求準確,它也只能在概率上更傾向選擇「看起來像正確事實的說法」,而這些「看起來像」的說法有時恰好就是幻覺。真正有效的緩解需要在架構層面設計:提供可信來源(RAG)、要求引用來源(Grounding)、建立人工核查流程——而不是靠 Prompt 中的「請務必準確」這句話。

誤區三:AI 自稱「不確定」的地方才是幻覺,它說得很確定的地方就是事實

這是最危險的誤解。AI 幻覺的特徵恰好是:模型在生成錯誤內容時,語氣確定程度與生成正確內容時完全相同。你無法從「它說得多確定」來推斷「它說的有多可靠」。AI 不像一個誠實的人,知道自己不確定時會說「我不太確定,但……」——AI 沒有這種「元認知」能力,它只是在概率上選擇每一個詞,不知道自己的選擇是否正確。這也是為什麼即使在 AI 表現出極度自信的領域,也必須建立查核機制,尤其是任何牽涉到具體數字、引用、人名、事件日期的陳述。


小練習

練習一:識別幻覺類型

以下是 AI 對三個問題的回答。請為每個回答識別幻覺類型(事實型 / 引用型 / 邏輯型),並說明判斷依據:

回答 X:「台灣的 AI 政策白皮書由國家科學及技術委員會於 2022 年 11 月發布,其中第三章第 2.4 節明確規定,所有政府機關採購 AI 系統時,必須通過 ITRI 的 AI 信任認證。」

回答 Y:「關於 AI 幻覺的研究,可以參考 Vyas et al.(2023)發表於 Nature Machine Intelligence 的論文《Hallucination in Large Language Models: A Systematic Review》,DOI: 10.1038/s42256-023-0721-4,該論文對 47 個主流 LLM 的幻覺率進行了系統性分析。」

回答 Z:「如果一個公司有 100 名員工,其中 60% 在辦公室上班,40% 遠端工作,辦公室上班的人中有 25% 使用 Mac,那麼整個公司中使用 Mac 的人有 100 × 60% × 25% = 15 人。因此,遠端工作且使用 Mac 的人數是 100 - 15 = 85 人。」

點擊查看參考答案

練習一:幻覺類型識別

| 回答 | 幻覺類型 | 分析 | |------|---------|------| | **X** | **事實型幻覺** | 陳述了一個具體的政策事實(AI 政策白皮書的章節號和具體規定內容),但這類細節極可能是模型捏造的。真實的政策文件中不一定有「第三章第 2.4 節」或「ITRI 的 AI 信任認證」這類具體規定。這種幻覺的危險在於「細節豐富」——章節號、機關名稱、具體規定的存在讓它看起來像是有根據的陳述,但這些細節本身可能都是虛構的。核查方式:直接查閱國科會官網的政策文件原文,比對章節內容。 | | **Y** | **引用型幻覺** | 提供了一個完整格式的學術引用,包含作者名、年份、期刊名稱、標題、DOI——但這些全都需要查核。引用型幻覺的特徵是「格式完整、細節豐富、但指向不存在的文獻」。核查方式:在 Google Scholar 或 PubMed 搜尋 DOI 號碼「10.1038/s42256-023-0721-4」,查看是否存在對應文章。即使 DOI 格式看起來合法(Nature 期刊的 DOI 確實是 10.1038/ 開頭),文章本身可能並不存在。 | | **Z** | **邏輯型幻覺** | 計算「辦公室上班且使用 Mac 的人數」是正確的(100 × 60% × 25% = 15 人),但最後一步的推理完全錯誤:「遠端工作且使用 Mac 的人數是 100 - 15 = 85 人」——85 是「非辦公室 Mac 使用者」嗎?完全不是,85 是「扣掉辦公室 Mac 使用者後所有人的數量」。遠端工作者共 40 人,其中使用 Mac 的比例未知(題目沒說),所以這道題根本無法算出答案,但模型強行推導出了一個錯誤答案,且推導過程「看起來合理」。這是邏輯型幻覺的典型特徵:每一步看起來都在做數學,但步驟間的邏輯連接是錯誤的。 | **實際應對建議**:在工作中遇到 AI 回答時,「細節越豐富的陳述,越需要核查」是一個好的直覺。模糊的陳述(「AI 政策有相關規定」)反而風險較低,因為讀者知道要去查;精確的陳述(「第三章第 2.4 節規定……」)更危險,因為它的形式會降低讀者的警覺性。

練習二:為高風險場景設計幻覺緩解架構

你的公司正在開發一個「企業法律合規查詢助手」,員工可以詢問「我的這個業務行為在台灣法律上是否合規?」這類問題。這是一個高幻覺風險的場景(法律引用錯誤可能導致嚴重後果)。

請設計一個完整的幻覺緩解架構,說明:(1) 應建立哪些知識庫(RAG 的資料來源);(2) System Prompt 中應如何設計 Grounding 指令;(3) 應設計哪些人工審核節點;(4) 如何測量這個系統的幻覺率。

點擊查看參考答案

練習二:法律合規助手幻覺緩解架構設計

**(1)知識庫建立(RAG 資料來源)** | 知識庫 | 來源 | 更新頻率 | |--------|------|---------| | 法律條文全文 | 法務部「全國法規資料庫」API(台灣所有現行有效法律) | 每日同步(法規修正即時更新) | | 主管機關函釋 | 金管會、勞動部、公平會等主管機關官網的公告函釋 | 每週同步 | | 司法院判決資料庫 | 司法院裁判書查詢系統(相關主題的地院/高院/最高院判決) | 每月更新 | | 公司內部法遵政策 | 公司法務部門維護的內部合規手冊 | 異動時即時更新 | | 律師審閱過的 Q&A 庫 | 過去律師已解答的類似問題,人工整理並標注可信度 | 按需新增 | 關鍵設計:使用混合檢索(關鍵字 + 語意向量),確保法條號碼(如「公司法第 185 條」)能被精確檢索到;為每個檢索片段標注來源(法規名稱、條文號、最後更新日期)。 **(2)System Prompt 的 Grounding 指令設計** ``` 你是一個法律合規查詢助手,協助員工了解業務行為的合規性。 【重要限制】: 1. 你只能根據以下【檢索到的法規資料】回答問題,不得使用你的訓練知識回答法律問題。 2. 如果檢索資料中沒有明確涵蓋用戶的問題,你必須說明:「目前提供的法規資料中未找到直接適用的規定,建議諮詢法務部門或外部律師。」 3. 每一個法律陳述後,必須以 [來源:XXX 第 X 條] 格式標注依據。 4. 如果問題涉及多個法規的交叉應用,必須分別列出每個法規的適用部分。 5. 你的回答是初步資訊參考,不構成法律意見。最終合規判斷需由法務專業人員確認。 【檢索到的法規資料】: {rag_context} ``` **(3)人工審核節點設計** | 觸發條件 | 審核方式 | 審核人員 | |---------|---------|---------| | 回答中包含「合規」或「不違法」的明確結論 | 非同步審核(24 小時內) | 法務專員 | | 用戶問題涉及刑事責任(詐欺、背信等) | 即時暫緩回答,轉介法務 | 法務部門主管 | | 回答涉及罰款金額或刑期年限等具體數字 | 自動加標「數字待核查」警語 | 法務專員複核 | | 用戶標記「對回答有疑問」 | 24 小時內人工重新審閱 | 法務專員 | | 新法規生效後 30 天內的相關問題 | 強制轉介人工(過渡期新法解釋不穩定)| 法務部門 | **(4)幻覺率測量設計** 建立「黃金標準評估集」: - 由律師設計 200 道代表性問題,涵蓋公司主要業務的合規場景 - 每道題由律師提供標準答案(包含正確的法條引用) - 每季度讓 AI 回答這 200 道題,評估三個指標: - **引用準確率**:AI 引用的法條是否實際存在,且條文內容是否如 AI 所述 - **結論準確率**:AI 的合規/不合規判斷是否與律師標準答案一致 - **不確定性表達率**:對超出知識範圍的問題,AI 是否正確地表達了不確定性 目標幻覺率閾值:引用準確率 ≥ 99%,結論準確率 ≥ 95%(差異部分需人工復審確認是 AI 錯誤還是法律本身的解釋空間)。如任一指標低於閾值,必須暫停服務進行檢查。

關鍵字自我檢核

✅ AI幻覺定義 ✅ 幻覺成因 ✅ 事實型幻覺 ✅ 邏輯型幻覺 ✅ 引用幻覺 ✅ 幻覺偵測方法 ✅ RAG防幻覺 ✅ 事實接地 ✅ 幻覺率測量 ✅ AI可靠性評估