← M05 生成式 AI M05 生成式 AI

M05.08｜AI 幻覺與事實查核：生成式 AI 的可靠性問題

AI 說得頭頭是道，但它可能在一本正經地胡說八道

L1-AI基礎知識-AI幻覺 L1-AI應用規劃-AI可靠性

🇺🇸 DOL AI Literacy 🔎 評估 AI 產出 💡 培養互補的人類技能

📋

本講學習重點

AI 幻覺是什麼？為什麼「幻覺」這個比喻很貼切？

從 LLM 的生成機制看，幻覺為什麼幾乎是不可避免的？

AI 幻覺分哪幾種類型？各自的危害程度有何差異？

RAG 能完全消除幻覺嗎？還有哪些互補的緩解策略？

如何設計一個系統性的幻覺率測量方法？

AI 幻覺的定義：模型生成了與事實不符、或無法被外部資料支撐的內容，但模型呈現時的「自信程度」與正確內容無異，無法從語氣上區分真假。「幻覺」比「謊言」更準確：模型不是有意欺騙，而是概率生成機制產生的副產物。幻覺的根本成因： 1. 概率採樣機制：LLM 每次生成是從概率分布中「採樣」，有機率選到低概率但看似合理的詞 2. 訓練資料的知識截止：對截止日後的事件，模型沒有真實資料，只能「外推」 3. 訓練資料的雜訊：訓練集中本身就有錯誤資訊 4. 泛化壓力：模型被要求回答所有問題，但實際上很多問題超出其知識邊界三類幻覺： - 事實型幻覺：捏造不存在的事件、人名、數據、引用 - 邏輯型幻覺：推理步驟看似合理但結論錯誤（如算術錯誤、因果顛倒） - 引用型幻覺：引用不存在的論文、法條、書籍，連 DOI 和作者名都「看起來真實」緩解策略： 1. RAG：從可信來源檢索後再生成，讓回答有文件依據 2. Grounding：明確要求模型「只能根據提供的資料回答」 3. 自我反思（Self-reflection）：讓模型生成後再自我核查 4. 外部驗證：用規則引擎或其他模型交叉驗證輸出 5. 不確定性表達訓練：讓模型學會說「我不確定」而非捏造答案幻覺率測量： - 黃金標準資料集：人工標注的題目，有明確正確答案，機器評分 - TruthfulQA、HaluEval 等基準測試 - 領域特化測試集：企業自建，針對自身業務場景的事實核查

📌 AI 幻覺是 LLM 概率生成機制的固有副產物：模型並不「知道」自己知道什麼和不知道什麼，只是在生成看似合理的文字序列。幻覺分為事實型、邏輯型、引用型三類，危害程度各異。 RAG、Grounding、人工複核是目前最有效的緩解組合，但無法從根本上消除幻覺——因此高風險場景（醫療、法律、財務）必須保留人類最終審核，不能讓 AI 成為唯一決策者。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

AI 幻覺（Hallucination）是指大型語言模型在沒有足夠知識支撐的情況下，仍然生成看起來流暢、自信、有條理，但實際上是錯誤的或虛構的內容——它不是在說謊，而是在以概率機制「瞎猜」，但猜出來的結果有時能以假亂真。

白話解說

幻覺是什麼：為什麼「幻覺」這個詞如此貼切？

2023 年，一名美國律師在聯邦法院的案件中，使用 ChatGPT 協助撰寫法律簡報，其中引用了六個案例，包含完整的案號、審判日期、法院名稱和判決摘要——看起來真實無比。但對方律師查核後發現，這六個案例全部不存在，是 ChatGPT 憑空生成的，每一個細節都是虛構的。法官大怒，那名律師被罰款 5000 美元，職業聲譽嚴重受損。

這就是 AI 幻覺最典型、最危險的形態。「幻覺」這個詞源自心理學，指的是在沒有外部刺激的情況下，大腦自行生成了虛假的感知體驗。用在 AI 上，它描述的是一種特定的失效模式：模型生成了與外部事實不符的內容，但它在生成這些內容時的「語氣自信程度」與生成正確內容時完全相同。你無法從模型的措辭語氣來判斷它說的是真實還是虛構——它永遠看起來同樣確定、同樣流暢。

比「錯誤」更準確的說法是「幻覺」，因為「錯誤」暗示了某種失誤的意圖，而 AI 幻覺本質上是系統性的機制副產物，不是偶然的疏失。把幻覺理解為一種可以被工程手段緩解（但目前無法完全消除）的系統特性，比把它理解為「AI 說謊」更有助於我們正確應對它。

幻覺的根本成因：概率機器的固有困境

要理解 AI 幻覺為什麼幾乎不可避免，必須回到 LLM 的生成機制。LLM 在每一步生成中，做的事情是：給定目前為止的所有文字，計算詞彙表中每個詞在下一個位置出現的概率，然後從這個分布中採樣一個詞。整個回答是一個詞接一個詞累積起來的概率採樣過程。

問題在於，這個機制根本不區分「我確定知道這個事實」和「這個詞出現在這個上下文中看起來很合理」。對模型而言，兩者都只是概率分布，只是數值高低不同。當被問到「台北 101 有幾層？」，模型會生成「101 層」，這恰好是正確的，因為「101 層」這個說法在訓練資料中出現的次數多，概率高。但如果被問到某個相對小眾的歷史人物的出生年份，而訓練資料中對這個資訊的記載很少，模型仍然會生成一個「看起來合理的年份」，因為它的機制就是要生成一個回答，而不是說「我不知道」。

四個主要的幻覺成因值得特別關注。知識截止效應：模型的知識停在訓練截止日，對之後發生的事完全不知道，但若有人問它截止後的事件，它很可能外推生成一個「聽起來合理」的答案。訓練資料雜訊：網路上本身就有大量不準確的資訊，模型在這些資料上訓練，學到了一些錯誤的「事實」。知識邊界模糊：模型沒有一個「我不知道的清單」，它甚至不知道自己的知識邊界在哪裡。泛化壓力：RLHF 訓練讓模型傾向於給出有幫助的回答，這種壓力有時會讓模型在沒有知識的情況下仍然「勇敢地回答」，而不是誠實地說「我不確定」。

三種幻覺類型：各有不同的危害程度

事實型幻覺（Factual Hallucination） 是最常見的類型：模型生成了與可驗證事實不符的內容。例如「台灣第一家便利商店是 7-11，於 1979 年在台北開業」（正確年份是 1978 年），或者「愛因斯坦出生於德國慕尼黑」（正確是德國烏爾姆）。這類幻覺通常可以透過外部查核發現，危害程度取決於應用場景的嚴格程度——在寫作輔助中影響較小，在新聞報導或學術引用中則可能造成嚴重後果。

引用型幻覺（Citation Hallucination） 是事實型幻覺中最隱蔽的一種，也是法律、學術、醫療場景中最危險的類型。模型能夠生成完全真實感的學術引用——作者名、期刊名稱、年份、卷期號、頁碼、甚至摘要——但這些期刊文章根本不存在。這種幻覺之所以危險，是因為它「打扮得非常完整」，形式上看起來像是有嚴格查核的資料，讀者很容易省去驗證步驟。哈佛大學一項 2024 年的研究發現，在要求 GPT-4 提供學術引用的測試中，約 27% 的引用在 Google Scholar 或 PubMed 中查不到。

邏輯型幻覺（Reasoning Hallucination） 是推理過程中的錯誤，輸入資料和推理步驟看起來合理，但中間某個步驟的邏輯跳躍導致結論錯誤。這在數學計算、多步驟推理、因果分析中最常見。例如：「小明有 5 顆糖，他給了小華三分之一，請問小明剩下多少顆？答：5 × (1 - 1/3) = 5 × 2/3 ≈ 3.33 顆」（正確應是 5 - 5/3 ≈ 3.67 顆，但更根本的問題是這道題答案應該是整數，說明題目設定有問題，但 AI 不會指出這個矛盾）。邏輯型幻覺因為推理過程看起來「有條有理」，往往比事實型幻覺更難被一般用戶察覺。

緩解策略：沒有銀彈，但有組合拳

RAG（檢索增強生成） 是目前最廣泛採用的幻覺緩解方案。核心思路是：在生成回答之前，先從可信的知識庫（公司文件、產品手冊、法規資料庫）中檢索相關段落，把這些段落作為「上下文」注入 Prompt，並明確要求模型「只根據提供的資料回答，如果資料中沒有相關資訊，請明確說明」。RAG 能有效減少「依賴模型內建知識猜測」的情況，但它不是萬能的：如果檢索到的文件本身有錯誤、或者模型在整合多個文件的資訊時發生邏輯錯誤，幻覺仍然可能發生。

Grounding（事實接地） 是比 RAG 更廣義的概念，指所有讓模型的輸出「錨定在可驗證來源」的技術設計。除了 RAG，還包括：要求模型在每個關鍵陳述後引用來源（Source Attribution）、設定系統提示詞要求模型明確標示不確定的資訊、以及在應用層做格式化輸出驗證（確保輸出的日期格式、數字範圍符合預期）。

自我反思（Self-reflection） 是一種讓模型先生成回答，再讓它用另一個 Prompt 扮演「審稿人」角色來核查自己回答中的事實陳述的技術。研究顯示，分兩步走（生成→審查）比一步生成的幻覺率更低，因為在審查階段，模型有機會從不同角度重新評估陳述的合理性。這也是 Chain-of-Thought（思維鏈）提示技術能減少邏輯型幻覺的原因——讓模型把推理過程顯示出來，每一步都可以被核查。

人工審核（Human Review） 是目前在高風險場景中無可取代的最後一道防線。對於醫療、法律、財務等決策後果嚴重的場景，即使做了所有技術緩解措施，也必須設計流程讓領域專業人員在 AI 輸出被使用前進行審閱。AI 提供初稿和分析，人類負責最終核准——這個「人機協作」的閉環是當前技術水準下最負責任的部署方式。

測量幻覺率：讓可靠性可量化

要改善幻覺問題，首先必須能夠測量它。目前主要的幻覺率測量方法有以下幾種：

標準基準測試是由學術界設計的公開測試集，例如 TruthfulQA（包含 817 個設計來誘導模型給出常見錯誤答案的問題）、HaluEval（包含事實核查和摘要幻覺評估）。這些測試集可以在不同模型之間做橫向比較，但通用基準測試不能代替你在特定業務場景中的實際幻覺風險。

領域特化評估集才是企業部署 AI 時真正需要建立的。方法是：收集你的業務場景中的代表性問題（應涵蓋高風險的事實查核題目），由領域專家標注正確答案，讓 AI 回答這些問題，再由專家評估回答的事實準確率。這個「黃金標準測試集」應該定期更新，並在每次更換模型版本或調整 Prompt 設計時重新跑一次，確保幻覺率維持在可接受範圍內。

一個可操作的幻覺率定義建議：「在 N 個標準測試問題中，AI 輸出中包含至少一個無法被外部來源驗證的事實陳述的回答比例」。對不同場景設定不同的可接受閾值（如：一般資訊查詢可接受 < 5%，醫療建議類應達 < 1%）。

應用場景

應用場景	幻覺風險等級	主要危害	建議緩解組合
客服問答（產品規格）	中	誤導客戶做出錯誤購買決定	RAG（產品目錄）+ 來源引用
法律文件起草輔助	高	引用不存在的法條或判例，造成訴訟風險	RAG（法規資料庫）+ 律師審閱
醫療資訊查詢	極高	錯誤的醫療建議可能危及生命	RAG（醫學文獻）+ 醫師審閱 + 免責聲明
財務報告摘要	高	數字或公司資訊錯誤，影響投資決策	結構化輸出驗證 + 財務人員審閱
新聞內容寫作輔助	高	虛假事實散播，損害媒體公信力	事實查核資料庫 RAG + 記者人工核查
創意寫作協助	低	虛構故事中的「幻覺」反而是創意資產	無需特別緩解（明確標示為虛構）
程式碼生成	中	生成使用不存在 API 的代碼（幻覺函式名）	單元測試自動執行 + 開發者審閱
教育學習輔助	中高	學生接受錯誤資訊影響學習	引用教科書 RAG + 教師監督使用

常見誤區

誤區一：用更大的模型就能解決幻覺問題

雖然更大的模型（更多參數）在各種基準測試上通常表現更好，包括幻覺率更低，但「更大」並不能從根本上消除幻覺。幻覺的根本成因（概率採樣機制、知識邊界模糊）在更大的模型上同樣存在。某些研究甚至發現，在特定的引用型幻覺上，更大的模型表現未必優於小模型，因為大模型更「自信」，在知識邊界上更不容易說「我不確定」。解決幻覺不是一個「擴大模型規模」的問題，而是一個需要系統設計（RAG、Grounding、人工審核）的工程問題。對高風險應用來說，即使使用最新的旗艦模型，也絕對不能省略核查機制。

誤區二：只要要求 AI「不要胡說」，它就不會幻覺了

很多人以為在 System Prompt 中加上「你必須只提供準確的事實，不可以猜測」就能解決幻覺。這種方法確實有輕微幫助（讓模型在不確定時更傾向說「我不知道」），但效果非常有限，無法作為主要緩解手段。原因是：模型無法在生成時「感知」自己的知識是否可靠——它沒有一個「事實驗證層」，它的生成過程就是概率採樣，即使被要求準確，它也只能在概率上更傾向選擇「看起來像正確事實的說法」，而這些「看起來像」的說法有時恰好就是幻覺。真正有效的緩解需要在架構層面設計：提供可信來源（RAG）、要求引用來源（Grounding）、建立人工核查流程——而不是靠 Prompt 中的「請務必準確」這句話。

誤區三：AI 自稱「不確定」的地方才是幻覺，它說得很確定的地方就是事實

這是最危險的誤解。AI 幻覺的特徵恰好是：模型在生成錯誤內容時，語氣確定程度與生成正確內容時完全相同。你無法從「它說得多確定」來推斷「它說的有多可靠」。AI 不像一個誠實的人，知道自己不確定時會說「我不太確定，但……」——AI 沒有這種「元認知」能力，它只是在概率上選擇每一個詞，不知道自己的選擇是否正確。這也是為什麼即使在 AI 表現出極度自信的領域，也必須建立查核機制，尤其是任何牽涉到具體數字、引用、人名、事件日期的陳述。

小練習

練習一：識別幻覺類型

以下是 AI 對三個問題的回答。請為每個回答識別幻覺類型（事實型 / 引用型 / 邏輯型），並說明判斷依據：

回答 X：「台灣的 AI 政策白皮書由國家科學及技術委員會於 2022 年 11 月發布，其中第三章第 2.4 節明確規定，所有政府機關採購 AI 系統時，必須通過 ITRI 的 AI 信任認證。」

回答 Y：「關於 AI 幻覺的研究，可以參考 Vyas et al.（2023）發表於 Nature Machine Intelligence 的論文《Hallucination in Large Language Models: A Systematic Review》，DOI: 10.1038/s42256-023-0721-4，該論文對 47 個主流 LLM 的幻覺率進行了系統性分析。」

回答 Z：「如果一個公司有 100 名員工，其中 60% 在辦公室上班，40% 遠端工作，辦公室上班的人中有 25% 使用 Mac，那麼整個公司中使用 Mac 的人有 100 × 60% × 25% = 15 人。因此，遠端工作且使用 Mac 的人數是 100 - 15 = 85 人。」

點擊查看參考答案

練習一：幻覺類型識別

| 回答 | 幻覺類型 | 分析 | |------|---------|------| | **X** | **事實型幻覺** | 陳述了一個具體的政策事實（AI 政策白皮書的章節號和具體規定內容），但這類細節極可能是模型捏造的。真實的政策文件中不一定有「第三章第 2.4 節」或「ITRI 的 AI 信任認證」這類具體規定。這種幻覺的危險在於「細節豐富」——章節號、機關名稱、具體規定的存在讓它看起來像是有根據的陳述，但這些細節本身可能都是虛構的。核查方式：直接查閱國科會官網的政策文件原文，比對章節內容。 | | **Y** | **引用型幻覺** | 提供了一個完整格式的學術引用，包含作者名、年份、期刊名稱、標題、DOI——但這些全都需要查核。引用型幻覺的特徵是「格式完整、細節豐富、但指向不存在的文獻」。核查方式：在 Google Scholar 或 PubMed 搜尋 DOI 號碼「10.1038/s42256-023-0721-4」，查看是否存在對應文章。即使 DOI 格式看起來合法（Nature 期刊的 DOI 確實是 10.1038/ 開頭），文章本身可能並不存在。 | | **Z** | **邏輯型幻覺** | 計算「辦公室上班且使用 Mac 的人數」是正確的（100 × 60% × 25% = 15 人），但最後一步的推理完全錯誤：「遠端工作且使用 Mac 的人數是 100 - 15 = 85 人」——85 是「非辦公室 Mac 使用者」嗎？完全不是，85 是「扣掉辦公室 Mac 使用者後所有人的數量」。遠端工作者共 40 人，其中使用 Mac 的比例未知（題目沒說），所以這道題根本無法算出答案，但模型強行推導出了一個錯誤答案，且推導過程「看起來合理」。這是邏輯型幻覺的典型特徵：每一步看起來都在做數學，但步驟間的邏輯連接是錯誤的。 | **實際應對建議**：在工作中遇到 AI 回答時，「細節越豐富的陳述，越需要核查」是一個好的直覺。模糊的陳述（「AI 政策有相關規定」）反而風險較低，因為讀者知道要去查；精確的陳述（「第三章第 2.4 節規定……」）更危險，因為它的形式會降低讀者的警覺性。

練習二：為高風險場景設計幻覺緩解架構

你的公司正在開發一個「企業法律合規查詢助手」，員工可以詢問「我的這個業務行為在台灣法律上是否合規？」這類問題。這是一個高幻覺風險的場景（法律引用錯誤可能導致嚴重後果）。

請設計一個完整的幻覺緩解架構，說明：(1) 應建立哪些知識庫（RAG 的資料來源）；(2) System Prompt 中應如何設計 Grounding 指令；(3) 應設計哪些人工審核節點；(4) 如何測量這個系統的幻覺率。

點擊查看參考答案

練習二：法律合規助手幻覺緩解架構設計

**（1）知識庫建立（RAG 資料來源）** | 知識庫 | 來源 | 更新頻率 | |--------|------|---------| | 法律條文全文 | 法務部「全國法規資料庫」API（台灣所有現行有效法律） | 每日同步（法規修正即時更新） | | 主管機關函釋 | 金管會、勞動部、公平會等主管機關官網的公告函釋 | 每週同步 | | 司法院判決資料庫 | 司法院裁判書查詢系統（相關主題的地院/高院/最高院判決） | 每月更新 | | 公司內部法遵政策 | 公司法務部門維護的內部合規手冊 | 異動時即時更新 | | 律師審閱過的 Q&A 庫 | 過去律師已解答的類似問題，人工整理並標注可信度 | 按需新增 | 關鍵設計：使用混合檢索（關鍵字 + 語意向量），確保法條號碼（如「公司法第 185 條」）能被精確檢索到；為每個檢索片段標注來源（法規名稱、條文號、最後更新日期）。 **（2）System Prompt 的 Grounding 指令設計** ``` 你是一個法律合規查詢助手，協助員工了解業務行為的合規性。【重要限制】： 1. 你只能根據以下【檢索到的法規資料】回答問題，不得使用你的訓練知識回答法律問題。 2. 如果檢索資料中沒有明確涵蓋用戶的問題，你必須說明：「目前提供的法規資料中未找到直接適用的規定，建議諮詢法務部門或外部律師。」 3. 每一個法律陳述後，必須以 [來源：XXX 第 X 條] 格式標注依據。 4. 如果問題涉及多個法規的交叉應用，必須分別列出每個法規的適用部分。 5. 你的回答是初步資訊參考，不構成法律意見。最終合規判斷需由法務專業人員確認。【檢索到的法規資料】： {rag_context} ``` **（3）人工審核節點設計** | 觸發條件 | 審核方式 | 審核人員 | |---------|---------|---------| | 回答中包含「合規」或「不違法」的明確結論 | 非同步審核（24 小時內） | 法務專員 | | 用戶問題涉及刑事責任（詐欺、背信等） | 即時暫緩回答，轉介法務 | 法務部門主管 | | 回答涉及罰款金額或刑期年限等具體數字 | 自動加標「數字待核查」警語 | 法務專員複核 | | 用戶標記「對回答有疑問」 | 24 小時內人工重新審閱 | 法務專員 | | 新法規生效後 30 天內的相關問題 | 強制轉介人工（過渡期新法解釋不穩定）| 法務部門 | **（4）幻覺率測量設計** 建立「黃金標準評估集」： - 由律師設計 200 道代表性問題，涵蓋公司主要業務的合規場景 - 每道題由律師提供標準答案（包含正確的法條引用） - 每季度讓 AI 回答這 200 道題，評估三個指標： - **引用準確率**：AI 引用的法條是否實際存在，且條文內容是否如 AI 所述 - **結論準確率**：AI 的合規/不合規判斷是否與律師標準答案一致 - **不確定性表達率**：對超出知識範圍的問題，AI 是否正確地表達了不確定性目標幻覺率閾值：引用準確率 ≥ 99%，結論準確率 ≥ 95%（差異部分需人工復審確認是 AI 錯誤還是法律本身的解釋空間）。如任一指標低於閾值，必須暫停服務進行檢查。

關鍵字自我檢核

✅ AI幻覺定義 ✅ 幻覺成因 ✅ 事實型幻覺 ✅ 邏輯型幻覺 ✅ 引用幻覺 ✅ 幻覺偵測方法 ✅ RAG防幻覺 ✅ 事實接地 ✅ 幻覺率測量 ✅ AI可靠性評估