← M04 深度學習 M04 深度學習

M04.10｜深度學習的局限與未來：不是所有問題都需要深度學習

深度學習很強，但它不擅長小數據、要解釋、要推理的場景

L1-AI基礎知識-深度學習限制 L1-AI基礎知識-AI發展趨勢

🇺🇸 DOL AI Literacy 🔎 評估 AI 產出 💡 培養互補的人類技能

📋

本講學習重點

深度學習為什麼需要大量資料？小數據下有哪些替代方案？

深度學習的「黑盒問題」在哪些場景會造成真正的危害？

深度學習的脆弱性（Brittleness）指的是什麼？

深度學習缺乏因果推理能力會帶來哪些問題？

基礎模型和多模態 AI 如何改變 AI 的應用方式？

高效 AI（Efficient AI）的主要技術方向是什麼？

深度學習的五大核心局限： 1. 資料饑渴（Data Hunger）： - 大型 DL 模型需要大量標注資料才能有效學習 - 稀少標注資料的場景：醫療罕見疾病、工業特殊瑕疵、法律判決 - 替代方案：傳統 ML（SVM、RandomForest）、遷移學習、Few-shot Learning 2. 計算資源昂貴（Compute Cost）： - 訓練大型模型需要大量 GPU 時間和電力 - 碳排放：GPT-3 訓練約 552 噸 CO₂ - 推論也消耗大量資源（每次 ChatGPT 對話估計費用 0.01–0.04 美元） 3. 黑盒問題（Black Box）： - 很難解釋「為什麼」做出特定預測 - 高風險決策場景：貸款拒絕、醫療診斷、法院判決 → 必須能解釋 - 替代方案：決策樹、邏輯回歸、規則引擎（可解釋性高） 4. 脆弱性（Brittleness / Distribution Shift）： - 訓練資料和測試資料分布不同時，效能急速下降 - 對抗性攻擊（Adversarial Attack）：微小的輸入擾動讓模型完全出錯 - 醫院 A 的資料訓練的模型，在醫院 B 的設備上效能可能差很多 5. 缺乏因果推理（No Causal Reasoning）： - 深度學習學習的是統計相關性，不是因果關係 - 「冰淇淋銷量和溺水事故相關」→ DL 可能學到，但推論出錯誤因果 - 無法回答反事實問題（Counterfactual）：「如果我不服藥，會發生什麼？」未來趨勢： - 基礎模型（Foundation Models）：超大規模預訓練，適應各種下游任務 - 多模態 AI：文字、圖像、音訊、視訊、感測器資料的統一模型 - 高效 AI：模型蒸餾、量化、稀疏化，讓 AI 在小裝置上運行 - 神經符號整合（Neuro-Symbolic）：結合統計學習和邏輯推理 - 神經形態運算（Neuromorphic）：仿生物神經元的低功耗 AI 晶片

📌 深度學習是極其強大的工具，但它不是萬能的。在資料量不足、需要可解釋性、需要嚴格因果推理、或面對分布偏移的場景，傳統機器學習或規則系統往往更合適。未來的 AI 發展方向是「強強整合」：基礎模型的知識 + 符號推理的邏輯 + 高效硬體的普及，讓 AI 既聰明又省電，既強大又可信賴。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

深度學習就像一個過目不忘的記憶天才——給它看過百萬個案例，它能找出任何人類難以察覺的模式；但它沒有辦法像人類一樣「思考」因果關係、用三個例子舉一反三、或者解釋「為什麼我這樣判斷」。知道它擅長什麼、不擅長什麼，才能在正確的地方用對工具。

白話解說

局限一：資料饑渴——沒有大量資料就餓死

深度學習的學習方式是從大量資料中歸納統計規律。這種學習方式的前提假設是：可以從足夠多的範例中提取出有意義的模式。

為什麼深度學習特別「渴」資料？

傳統的線性回歸（10 個特徵）可能只需要幾百筆資料就能訓練；決策樹（100 個特徵）可能需要幾千筆。但一個從頭訓練的 ResNet-50（25 百萬參數）需要 ImageNet 的 120 萬張標注圖片才能訓練出競爭力。

這個差距源於參數量：每個參數的估計都需要足夠多的資料來支撐。參數量越多，需要的資料量越大。大型語言模型有數十億到數兆參數，需要的訓練資料量是人類有史以來的所有文字的數倍。

資料稀缺在現實世界的分布：

「大數據」的幻覺 vs 現實：

某些領域確實有大量資料：
  ✓ 網路文字（Wikipedia、新聞、書籍）：數兆 tokens
  ✓ 通用圖片（網路圖片）：數十億張
  ✓ 電商交易紀錄（Amazon、PChome）：數億筆/年

但大多數專業領域資料量嚴重不足：
  ✗ 台灣罕見疾病 X 光影像：幾百到幾千張
  ✗ 半導體製程異常圖片：每種瑕疵類型可能只有幾十張
  ✗ 判決書（繁體中文，特定罪名）：幾千份
  ✗ 特定工廠設備的感測器異常紀錄：幾百筆（異常本來就少）

小數據場景下的替代方案：

資料量	推薦方法	理由
< 100 筆標注	規則引擎 / 專家系統	太少資料，機器學習無法可靠學習
100–1,000 筆	傳統 ML（SVM、Random Forest、XGBoost）	需要人工特徵工程，但可在小數據上有效
1,000–10,000 筆	遷移學習（預訓練 + 微調）	借用預訓練知識，彌補標注資料的不足
10,000–100,000 筆	深度學習（標準微調或部分從頭訓練）	開始可以有效利用 DL 的強大表達能力
> 100,000 筆	深度學習（可考慮從頭訓練）	DL 的優勢在此規模才充分發揮

局限二：計算資源昂貴——電費和碳排放是真實問題

深度學習不只是算法問題，更是能源消耗問題。

大型模型訓練的碳排放估算：

GPT-3 訓練（OpenAI，2020 年）：
  計算量：~3.14 × 10^23 FLOP
  估計碳排放：552 噸 CO₂
  等效：120 輛汽油車行駛一年的排放量

LLaMA 65B（Meta，2023 年）：
  訓練資料：1.4 兆 tokens
  GPU 時間：2,048 A100 GPU × 21 天
  估計用電：約 350 MWh（35 萬度電）

GPT-4 訓練（估計，未公開）：
  成本估算：約 1 億美元
  碳排放：估計數千噸 CO₂

推論的隱性成本：

訓練雖然昂貴，但更大的能源消耗其實來自持續不斷的推論服務：

每一次 ChatGPT 對話的推論成本：
  用電估算：約 0.001–0.01 kWh（視對話長度）
  成本估算：約 0.01–0.04 美元/次（OpenAI 的推論成本估計）
  ChatGPT 日活躍用戶：約 1 億（2024 年）
  每日全球用電估算：數百 MWh

比較：一次 Google 搜尋約 0.3 Wh，
     一次 ChatGPT 對話估計約 3–10 Wh
     → 每次 AI 對話消耗的電力約是 Google 搜尋的 10–33 倍

這個成本問題推動了「高效 AI（Efficient AI）」研究的興起，包括模型蒸餾、量化、稀疏化等技術（詳見未來趨勢章節）。

局限三：黑盒問題——它只告訴你答案，不告訴你為什麼

深度學習模型由數百萬到數十億個參數組成的非線性計算構成，其內部決策過程對人類幾乎是完全不透明的。這就是所謂的黑盒問題（Black Box Problem）。

黑盒問題在哪裡真正會造成危害：

場景一：金融貸款審核

  黑盒模型告訴你：「這位申請人的貸款申請被拒絕。」
  但你無法得知：為什麼被拒絕？是因為信用評分？還是因為模型
  誤解了某個不相關的特徵（如郵遞區號）？是否有歧視（性別/年齡/族裔）？

  台灣《金融消費者保護法》和歐盟《一般資料保護規範（GDPR）》
  都要求金融機構能夠「解釋」自動化決策。
  黑盒 DL 模型在監管上存在合規風險。

場景二：醫療輔助診斷

  黑盒模型說：「這張 X 光片顯示 87% 機率有肺結節。」
  但醫生無法判斷：模型是真的看到了結節的影像特徵，
  還是因為這張影像的拍攝角度、光照、機器型號不同而被誤導？

  若模型判斷錯了，醫生無法知道問題出在哪裡，
  也無法告知病患「為什麼」做出這個診斷。

場景三：法院判決輔助

  如果 AI 根據犯罪紀錄預測再犯率，用於法官的量刑參考，
  但模型是黑盒，無法解釋為什麼某個人被預測為「高風險」，
  這涉及嚴重的程序正義問題。

常見的可解釋 AI（XAI，Explainable AI）技術：

LIME（Local Interpretable Model-Agnostic Explanations）：在每個輸入樣本附近，用一個簡單的線性模型（可解釋）近似複雜黑盒模型的局部行為
SHAP（SHapley Additive exPlanations）：基於賽局論，計算每個特徵對預測結果的貢獻度（可正可負）
Grad-CAM（Gradient-weighted Class Activation Mapping）：視覺化 CNN 在做分類時，圖像的哪些區域對最終預測貢獻最大（生成「熱力圖」）

這些技術提供了「事後解釋（Post-hoc Explanation）」，但它們只是近似，不是真正揭露了模型的決策過程。在高風險場景，應考慮使用本質上可解釋的模型（如決策樹、邏輯回歸、規則清單）。

局限四：脆弱性——換個場景就不靈

深度學習模型在訓練資料的分布範圍內表現優秀，但一旦遇到分布外（Out-of-Distribution）的資料，效能可能急速崩潰。這就是所謂的分布偏移問題（Distribution Shift）和脆弱性（Brittleness）。

分布偏移的典型例子：

醫療影像跨院遷移問題（現實中非常常見）：

  醫院 A 用 Siemens CT 機訓練瘤偵測模型：
    驗證集準確率：92%（在 Siemens CT 影像上）

  部署到醫院 B（使用 GE CT 機）：
    實際準確率：73%（下降 19 個百分點）

  原因：不同品牌的 CT 機在影像的灰階值範圍、噪點特性、
       掃描層厚度等方面有差異，這些差異讓預訓練模型面對
       「新分布」的影像時大幅退化。

對抗性攻擊（Adversarial Attack）——脆弱性的極端展示：

對抗性攻擊是對輸入做微小、人類幾乎察覺不到的改動，卻讓深度學習模型完全出錯的技術：

圖像分類的對抗性攻擊：

  原始圖片：一隻熊貓
    → 模型預測：熊貓（99.3% 信心）

  添加一層人眼幾乎看不出的「雜訊」（對抗性擾動）：
    → 圖片看起來和原來幾乎一樣（人類仍認為是熊貓）
    → 模型預測：長臂猿（99.9% 信心）

這個現象在自動駕駛安全中引發嚴重擔憂：
  一張貼了特製貼紙的停止標誌：
  → 人類司機：正常識別為「停止」
  → 自動駕駛 AI：可能辨識為「時速限制 45 公里」

為什麼深度學習是脆弱的？

深度學習學習的是訓練資料中的「統計捷徑（Shortcut Learning）」，而非人類理解的「本質特徵」。例如：牛的分類模型可能學到「草地背景 → 牛」這個捷徑（因為訓練資料中的牛大多在草地上），導致在其他背景下的牛被分類錯誤，而在草地上的其他動物被誤認為牛。

局限五：缺乏因果推理——相關性不等於因果性

這是深度學習最根本的局限之一。深度學習學習的是統計相關性，而非人類理解世界的方式——因果關係。

相關性 vs 因果性的經典例子：

觀察到的統計相關：
  每個夏天，冰淇淋銷量 ↑ 的同時，溺水事故 ↑
  → 統計模型：冰淇淋銷量 和 溺水事故 高度相關

深度學習可能學到的「規律」：
  「冰淇淋銷量增加」→ 預測「溺水風險增加」
  → 業務決策：減少冰淇淋銷售可以降低溺水事故？（錯誤！）

真正的因果結構：
  夏天高溫 → 游泳活動增加 → 溺水事故增加
  夏天高溫 → 外出人數增加 → 冰淇淋銷量增加
  「夏天」是共同原因（Confounding Variable），冰淇淋和溺水是被共同原因影響的兩個結果

因果推理缺失的實際危害：

醫療案例：AI 預測敗血症死亡率

  資料觀察：使用呼吸機（Ventilator）的病患，死亡率反而低於
            未使用呼吸機的類似病患。
  深度學習模型可能學到的「規律」：
            呼吸機使用 → 較低死亡率 → 建議更多人使用呼吸機

  真正的因果結構：
            病情輕微的病患 → 不需要呼吸機 → 較低死亡率
            病情嚴重的病患 → 需要呼吸機 → 即使使用了，死亡率還是較高
            呼吸機和死亡率的相關性是被「病情嚴重程度」這個混淆變數造成的

  如果依照 DL 模型的建議，給不需要呼吸機的輕症患者也插管，
  不只浪費資源，還可能造成醫源性傷害。

深度學習的因果盲點是工程問題還是根本限制？

這是 AI 研究者辯論的熱門議題。圖靈獎得主 Yoshua Bengio 和因果推理大師 Judea Pearl 都認為：現有的深度學習缺乏建構因果模型的能力，是其達到「人類等級推理」的根本障礙。解決方案之一是將深度學習和因果推理框架（如 Pearl 的 do-calculus）整合，形成神經符號系統（Neuro-Symbolic AI）。

未來趨勢：深度學習的下一步在哪裡

趨勢一：基礎模型（Foundation Models）

「基礎模型」這個詞由 Stanford HAI 研究所在 2021 年提出，指的是在海量通用資料上訓練的超大型模型，它可以被適應（通過微調、提示工程、RAG 等方式）到各種下游任務。

基礎模型改變了 AI 開發方式的本質：

過去：每個任務訓練一個模型
  文字分類模型 ← 從頭訓練
  物件偵測模型 ← 從頭訓練
  語音辨識模型 ← 從頭訓練
  翻譯模型 ← 從頭訓練

基礎模型時代：一個模型適應所有任務
  GPT-4 / Claude 3 / Gemini
  ↓ 微調 / 提示工程 / RAG
  文字分類 ✓ 物件偵測 ✓ 翻譯 ✓ 代碼生成 ✓ 醫療問答 ✓

基礎模型的能力隨規模展現「湧現（Emergence）」——模型超過某個參數量閾值後，突然能做到在訓練時未曾明確學習的任務（如多步數學推理、類比推理），這種湧現能力仍是 AI 研究的未解之謎。

趨勢二：多模態 AI（Multimodal AI）

早期的 AI 模型各自為政：語言模型只處理文字，視覺模型只處理圖像，語音模型只處理音訊。多模態 AI 打破了這個隔閡，讓單一模型能同時理解和生成多種形式的資料。

多模態 AI 的進展時間線：

年：DALL-E（OpenAI）—— 文字描述 → 圖片生成
年：Stable Diffusion —— 開源文字 → 圖片
年：GPT-4V —— 圖片 + 文字輸入 → 文字輸出（能「看圖說話」）
年：Sora（OpenAI）—— 文字 → 影片生成
         Gemini 1.5 —— 文字/圖片/音訊/影片的統一理解
年：Gemini 2.5 / Claude Opus 4 —— 接近原生多模態理解

台灣的多模態 AI 應用機會：

製造業：結合設備感測器資料（時序）+ 視覺影像（視覺）+ 維修日誌（文字）的多模態異常偵測
醫療：病患病歷（文字）+ 影像（X 光/CT）+ 基因資料（數值）的整合診斷輔助
教育：學習資料（文字/影片）+ 學習行為數據（時序）的個人化學習路徑推薦

趨勢三：高效 AI（Efficient AI）

隨著 AI 模型越來越大，「讓大模型在小裝置上高效運行」成為關鍵工程挑戰。

主要技術方向：

模型蒸餾（Knowledge Distillation）：用大型「教師模型」的輸出訓練小型「學生模型」，讓學生模型學習教師的知識（而非只看硬標籤），通常學生模型能達到教師 80–90% 的效能，但只有 1/10 的參數量。

蒸餾典型案例：
  教師模型：BERT-large（3.3 億參數）
  學生模型：DistilBERT（6,600 萬參數，約 1/5）
  效能保留：在 GLUE benchmark 上保留 97% 的效能
  推論速度：比 BERT-large 快 60%
  模型大小：縮小 40%

量化（Quantization）：把模型參數從高精度（FP32，32 bits/參數）壓縮到低精度（INT8、INT4，甚至 1-2 bits），大幅減少記憶體和計算需求。

量化的效益（以 LLaMA-3-8B 為例）：
  FP32（原始）：32 GB VRAM
  FP16（半精度）：16 GB VRAM（效能幾乎不變）
  INT8（8-bit 量化）：8 GB VRAM（效能損失 < 2%）
  INT4（4-bit 量化，如 GGUF Q4_K_M）：4 GB VRAM（效能損失 < 5%）
  → INT4 量化的 8B 模型可以在一般筆電（16 GB 記憶體，無 GPU）上流暢執行

稀疏化（Sparsification/Pruning）：移除對模型效能貢獻最小的連接（權重設為 0），讓模型變得「稀疏」，減少計算量。

趨勢四：神經符號整合（Neuro-Symbolic AI）

結合深度學習的統計學習能力和符號 AI（Symbol AI）的邏輯推理能力，試圖兼得兩者的優點：

深度學習：感知（看圖識字、語音辨識）+ 從大量資料歸納統計規律
符號 AI / 邏輯推理：演繹推理（從規則到結論）+ 可解釋性 + 資料高效（Few-shot）+ 確保邏輯一致性

台灣的應用方向：製造業的品質管控（深度學習識別瑕疵 + 符號規則決定報廢/返修邏輯）；醫療診斷輔助（深度學習從影像識別候選病灶 + 醫學知識圖譜做鑑別診斷）。

趨勢五：神經形態運算（Neuromorphic Computing）

神經形態晶片模仿生物大腦神經元的「脈衝（Spike）」通訊方式，而非傳統的連續數值矩陣乘法：

傳統 GPU/TPU：
  矩陣乘法（密集計算）
  功耗：數十到數百瓦
  適合：大型模型訓練和推論

神經形態晶片（如 Intel Loihi、IBM TrueNorth）：
  脈衝神經網路（Spiking Neural Network，SNN）
  神經元只在「有訊號時」才消耗電力（事件驅動）
  功耗：毫瓦到微瓦等級
  適合：低功耗邊緣 AI、IoT 感測器、穿戴裝置
  現狀：精度仍落後傳統 DL，是研究中的長期方向

台灣的硬體機會：神經形態晶片的設計和製造正好是台灣半導體產業（台積電、聯發科）可以深度參與的領域，是台灣 AI 硬體發展的長期潛力方向。

應用場景

什麼時候不應該用深度學習

以下是幾個台灣企業的真實場景，說明「不用深度學習」反而是更聰明的選擇：

案例一：中小企業的銷售預測（資料量不足場景）

一家台灣中部的傳統製造廠，月銷售約 200 款產品，希望預測下個月的銷售量來優化備料。他們只有 3 年的月銷售資料，每款產品 36 個月的紀錄。

嘗試深度學習（LSTM）：
  訓練資料：36 筆 × 200 款 = 7,200 筆（每款 36 個時間點）
  結果：模型嚴重過擬合，驗證集 MAPE（平均絕對百分比誤差）= 38%
  問題：資料太少，時間序列太短，深度學習沒有優勢

改用傳統統計方法（SARIMA / Prophet）：
  MAPE = 14%（遠優於 LSTM）
  理由：統計時序模型明確建模季節性、趨勢、節日效應，
       不需要大量資料就能捕捉這些可解釋的規律

結論：在此場景，傳統統計方法 >> 深度學習

案例二：銀行信貸風險評估（可解釋性需求場景）

台灣某區域銀行想為中小企業貸款申請建立風險評分模型。

嘗試深度學習（多層 MLP）：
  AUC-ROC：0.89（優秀的區別能力）
  問題：
  1. 金融監理機關（金管會）要求銀行能解釋「為什麼拒絕某申請」
  2. 《消費者保護法》保障申請人有知道理由的權利
  3. 模型是否對特定地區或產業有隱性歧視，無法驗證

改用 XGBoost + SHAP 解釋：
  AUC-ROC：0.87（略低，但仍優秀）
  優點：
  ✓ SHAP 圖可以解釋每個申請被評為高風險的具體原因
  ✓ 可以生成「給申請人的拒貸說明」（「您的負債比率超過業界均值 1.4 倍」）
  ✓ 可以檢查是否有對特定族群的歧視性模式

結論：在高監管要求場景，「稍差但可解釋的模型」> 「更準但不可解釋的模型」

案例三：生產線即時品質管控（低延遲 + 確定性需求場景）

一家半導體封裝廠，需要在 5 毫秒內判斷晶片的 5 個電性參數是否符合規格，不符合就觸發報警。

深度學習方案：
  雖然可以訓練一個能預測不良品的 MLP
  但問題：
  - 規格是精確的數值範圍（± 5%），不是模糊的特徵
  - 規格可以隨產品批次精確調整
  - 需要 100% 可解釋（為什麼這顆晶片是不良品）
  - 5ms 延遲要求在某些情況下 DL 推論也難以穩定達到

規則引擎（直接的 if-then 條件判斷）：
  if (voltage < 2.97 or voltage > 3.03):  # ±1% 電壓容差
      flag_as_defective("電壓超標")
  elif (current > 15.2e-3):               # 電流上限
      flag_as_defective("電流過大")
  ...

  ✓ 延遲：< 0.1ms
  ✓ 100% 可解釋（直接輸出超出規格的參數名稱和實際值）
  ✓ 規格變更時，工程師直接修改數字，不需要重新訓練模型
  ✓ 完全確定性（相同輸入保證相同輸出）

結論：規格明確、延遲嚴苛、需要解釋的場景，規則引擎 >> 深度學習

常見誤區

誤區一：深度學習效果越來越好，最終會取代所有傳統機器學習方法

這個觀點把「在大型基準測試上的表現」等同於「在所有實際場景中的適用性」。深度學習確實在 ImageNet 圖像分類、語言模型基準等大規模任務上遠超傳統方法；但在表格資料（Tabular Data）上，XGBoost 和 LightGBM 至今仍是很多 Kaggle 競賽和業界應用的首選——即使有 TabNet、FT-Transformer 等針對表格資料的深度學習方法，在中小型資料集上的優勢仍不穩定。每種工具有其最適合的場景，「最新的深度學習一定最好」是工具崇拜，不是工程思維。在決定使用哪個方法之前，先評估你的資料量、特徵類型、延遲要求、可解釋性需求，再做選擇。

誤區二：深度學習模型在驗證集上表現好，部署後效果也會一樣好

驗證集的表現只能保證模型在「和訓練資料來自同一分布」的資料上表現良好。一旦部署到生產環境，面對真實世界的資料，各種「分布偏移」就可能發生：用戶行為隨時間改變（Concept Drift）、資料收集環境改變（如感測器老化、攝影機角度調整）、出現訓練時從未見過的新情況。這就是為什麼「部署後監控（Production Monitoring）」和「模型再訓練（Retraining）機制」是 MLOps 的核心。忽視分布偏移，把在驗證集上的高準確率當作部署後效果的保證，是許多 AI 專案失敗的根本原因。

誤區三：大型語言模型（LLM）已經可以進行真正的推理，深度學習的因果推理局限已經被克服

GPT-4、Claude 等 LLM 在推理任務（如 GSM8K 數學題、邏輯題）上表現令人驚艷，讓很多人以為 LLM 已經能「真正推理」。但研究顯示，LLM 在這些任務上的成功，很大程度上是訓練資料中見過類似問題的記憶和模式匹配，而非真正建構了因果模型。當問題被稍微改寫（如改換數字、調整條件）或超出訓練資料的覆蓋範圍，LLM 的「推理能力」往往顯著下降，還會自信地給出錯誤答案（幻覺，Hallucination）。LLM 是強大的語言模式識別和泛化工具，但「語言層面的推理」和「真正的因果推理」之間仍有根本差距，是目前 AI 研究的核心課題。

小練習

練習一：選擇合適的工具

你是一家台灣保險公司的 AI 主管，以下是四個來自不同業務部門的 AI 需求，請為每個需求選擇最合適的技術方案，並說明理由（選項包括：深度學習、傳統機器學習、規則引擎、統計方法）：

需求 A：理賠詐欺偵測系統。歷史資料：過去 8 年，300 萬件理賠申請，其中已標注詐欺案件 15,000 件（詐欺率約 0.5%）。特徵：申請人資料、申請金額、醫療機構、申請時間間隔等 150 個結構化特徵。需求：模型輸出需要能解釋「為什麼這件申請被標記為疑似詐欺」，供人工覆查人員參考。

需求 B：醫療費用估算系統。客戶輸入：年齡、性別、過去就醫次數、慢性病類型（5 類）。輸出：未來一年預估醫療費用的分布（中位數和 80% 信賴區間）。資料：10 萬名客戶的 5 年歷史理賠紀錄。

需求 C：核保決策輔助系統。客戶提交健康檢查報告（PDF 中的 20 個數值指標，如血壓、血糖、BMI 等）。系統需要根據公司核保手冊的規則，自動計算「標準體」、「次標準體（加費）」、「拒保」的建議，並列出觸發的具體規則。核保手冊已有明確的數值範圍規定。

需求 D：客服語音轉文字與情緒分析系統。每日處理 10,000 通客服電話，轉成文字後分析客戶情緒（正面/負面/中性）和主要訴求類別（理賠進度/保費問題/保單查詢等）。

看解答

**需求 A：詐欺偵測 → 傳統機器學習（XGBoost + SHAP）** 選擇理由： - 資料充足（300 萬筆、150 個特徵）且為結構化表格資料，這是 XGBoost 的最強場景 - 詐欺偵測在表格資料上，XGBoost 歷來在實際案例中表現不亞於甚至優於深度學習 - **可解釋性是核心需求**：SHAP 值可以為每個可疑案件生成特徵重要性報告（「此案件被標記的主要原因：申請金額是同類型理賠的 3.2 倍標準差、同一醫療機構在 30 天內有 8 筆高額申請」），直接提供給人工覆查員 - 深度學習（如 Transformer）在此場景不是最佳選擇：精度提升有限，但喪失了可解釋性，且 0.5% 的極度類別不平衡對訓練和閾值選擇需要特別處理，XGBoost 有更成熟的實作（scale_pos_weight 等）補充注意：此場景需要特別處理類別不平衡（詐欺 0.5%），建議使用 SMOTE 過採樣或直接用 AUC-PR（精確率-召回率曲線下面積）而非 AUC-ROC 作為評估指標，後者在不平衡資料上更有意義。 **需求 B：醫療費用估算 → 統計方法（廣義加性模型 GAM，或 XGBoost 回歸）** 選擇理由： - 核心需求是「分布估算」（中位數 + 信賴區間），不只是點預測 - 特徵只有幾個（年齡、性別、就醫次數、慢性病類型），資料雖有 10 萬筆，但特徵維度低，深度學習無顯著優勢 - **廣義加性模型（GAM）**（如 Python 的 pygam 套件）：每個特徵的影響可以被視覺化為平滑曲線（「年齡和醫療費用的非線性關係」），可解釋性高，且自然支援信賴區間估計 - 若需要更準確的點預測且可接受降低可解釋性，XGBoost 回歸 + conformal prediction（無分布假設的信賴區間方法）也是好選擇 - 不建議深度學習：特徵數量少（維度詛咒反向）、資料量對 DL 來說偏少、不需要圖像或文字的複雜特徵提取 **需求 C：核保決策輔助 → 規則引擎（直接實作核保手冊的邏輯）** 選擇理由： - **規則已明確存在**（核保手冊），不需要從資料中「學習」規則——這正是規則引擎最適合的場景 - 絕對需要可解釋性和確定性：核保決策是法規遵循的高風險決策，必須能精確說明「因為血壓收縮壓 = 145 mmHg，超過標準體上限 140 mmHg，觸發次標準體規則 A-12，加費 20%」 - 規則變更時（如核保手冊更新），只需修改規則代碼，不需要重新訓練模型 - 用機器學習來「學習」已經有明確規則的邏輯，是工程上的過度設計，也引入了不必要的黑盒風險實作建議：使用業務規則引擎框架（如 Python 的 business-rules 套件，或商業的 Drools）管理規則，而非硬編碼，方便核保人員在不寫代碼的情況下維護規則。 **需求 D：語音轉文字 + 情緒分析 → 深度學習（Whisper + BERT 微調）** 選擇理由： - 語音轉文字（STT）本質上是複雜的序列建模任務，需要理解聲學特徵和語言模型，深度學習（如 OpenAI Whisper）是此任務的最先進解決方案，無替代品 - 情緒分析和意圖分類是 NLP 任務，有大量可用的預訓練模型（BERT 系列），遷移學習效率極高 - 資料規模（10,000 通/日）足夠進行監督微調，且可持續收集標注資料改善模型 - 不需要個案級別的解釋（整體趨勢分析為主），可解釋性要求較低技術方案： ``` 語音 → Whisper-large-v3（繁體中文 ASR，現成可用）→ 文字文字 → bert-base-chinese 微調分類頭 1：情緒（正/負/中，3 類）分類頭 2：訴求類別（理賠/保費/保單/其他，4 類） → 同時輸出情緒和訴求標籤整合：每日自動統計各類情緒和訴求的分布，生成報表供客服主管參考 ``` 若預算有限，情緒分析甚至可以使用 ChatGPT API（提示工程，零樣本分類），免去微調的工程成本，但需評估資料隱私（客服錄音是否可以傳送外部 API）。

練習二：評估 AI 方案的局限性

台灣某醫療集團計劃引入一套 AI 系統，用於輔助基層診所的「糖尿病眼部病變早期篩查」。以下是系統廠商的提案說明：

本系統使用在 US FDA 已核准、於美國 20 萬張糖尿病視網膜病變影像上訓練的 AI 模型，準確率（AUC-ROC）達 0.97，靈敏度 87.2%，特異度 90.3%。部署後，基層診所的護士使用眼底攝影機拍攝照片後上傳系統，AI 在 30 秒內給出「正常 / 輕度病變 / 中重度病變（建議立即轉診）」的判斷。

你的任務是評估這套系統的潛在局限和風險：

廠商說「在 20 萬張美國資料上訓練，AUC 0.97」，這對台灣診所的部署有哪些隱患？
「護士使用眼底攝影機」這個部署場景可能引發哪些分布偏移問題？
如果你是這家醫療集團的 AI 主管，你會要求廠商在簽約前提供哪些額外的驗證報告？

看解答

**問題 1：美國訓練資料對台灣部署的隱患** **隱患一：族裔差異帶來的準確率偏差** 美國的糖尿病視網膜病變資料集（如 EyePACS）主要由歐裔、非裔和拉丁裔美國人組成，台灣患者以漢族為主。不同族裔在虹膜色素沉澱、眼底顏色（亮/暗）、視網膜血管特徵上有差異。訓練於美國族裔資料的模型，在台灣漢族患者的眼底影像上，準確率和假陰性率（漏診率）可能顯著不同。廠商聲稱的 AUC 0.97 是在美國測試集上的結果，不代表在台灣患者上也能達到此水準。 **隱患二：共病和病程差異** 台灣的糖尿病患者在飲食習慣、體型（BMI 分布）、糖尿病類型（Type 2 比例）、就醫習慣（台灣健保讓患者可能更早就診）上和美國有差異。這些因素影響病變的外觀特徵和發展模式，可能導致模型的判斷標準不完全適用於台灣族群。 **隱患三：醫療標注標準的差異** 美國和台灣的眼科醫師在判斷「輕度病變」vs「中度病變」的標準可能不完全一致，訓練標籤（Ground Truth）的定義差異也會影響模型的實際臨床效用。 **問題 2：護士操作眼底攝影機的分布偏移風險** **風險一：攝影機型號和設定差異** AI 模型訓練時使用的影像，來自特定品牌、型號的眼底攝影機，在特定設定（分辨率、光強、拍攝協議）下拍攝。基層診所的眼底攝影機品牌和設定可能不同，導致影像在色彩、亮度、清晰度上有系統性差異，引發分布偏移。 **風險二：操作者技能差異（Operator Variability）** 眼底攝影的品質高度依賴操作者：對焦是否準確、患者是否配合（眼球不動）、是否正確控制瞳孔散大等。訓練時使用的美國資料，可能由受過專業訓練的攝影師或眼科護士拍攝，品質有一定保障。而基層診所護士的訓練程度、操作習慣可能有顯著差異，導致模型接收到品質不穩定的輸入，影像品質差的圖片可能被模型錯誤分類。 **風險三：患者群體差異** 基層診所的患者可能包含更多「首次篩查」的患者（病變程度分布和訓練資料可能不同），或因眼部疾病史、手術史（如曾做過雷射治療）而有特殊的影像特徵，影響模型準確性。 **問題 3：要求廠商提供的額外驗證報告** 身為 AI 主管，在簽約前應要求以下驗證： **驗證一：台灣本地的前瞻性驗證研究（最重要）** 要求廠商在台灣的醫療機構（至少 3 家）進行「前瞻性驗證研究」：收集 1,000 張以上台灣糖尿病患者的眼底影像，由台灣眼科醫師進行標注，評估 AI 系統的靈敏度、特異度、假陰性率。要求廠商提供這份研究的詳細數據（而非只聲稱 FDA 核准）。 **驗證二：跨設備驗證報告** 要求廠商提供模型在多種眼底攝影機品牌和型號（特別是台灣診所常用型號，如拓普康 NW400、Zeiss Visuscout 等）上的準確率報告，確認跨設備的穩定性。 **驗證三：影像品質評估機制** 要求系統具備「影像品質評估」功能：若上傳的影像因對焦不準、光線不足、患者眨眼等原因品質不佳，系統應自動提示「影像品質不足，請重新拍攝」，而非對低品質影像給出不可靠的判斷。 **驗證四：失敗案例（Error Analysis）報告** 要求廠商提供訓練/測試集上被系統誤判的案例分析：哪些特徵類型的病變最容易被漏診（假陰性）？哪些正常影像最容易被誤報（假陽性）？了解系統的失敗模式，才能制定合適的臨床使用規範（如對哪些患者群體應增加人工複查）。 **驗證五：持續監控機制的規劃** 要求廠商說明：部署後如何監控模型在台灣資料上的持續表現？如果準確率下降（如因攝影機更換或患者群體變化），有什麼再訓練/更新的機制？AI 系統不是「部署完就結束」，而是需要持續維護的生命週期管理。 **總結原則**：AI 醫療系統的「FDA 核准」只是在美國特定資料上的驗證，不能直接外推到台灣的臨床場景。跨族裔、跨設備、跨操作者的分布偏移是醫療 AI 落地的最大挑戰，任何負責任的部署都需要在目標族群和環境中進行嚴謹的本地驗證。

關鍵字自我檢核

✅ data hunger ✅ black box ✅ explainability ✅ causal reasoning ✅ brittleness ✅ foundation models ✅ multimodal AI ✅ efficient AI ✅ neuromorphic computing ✅ 資料饑渴 ✅ 黑盒模型 ✅ 因果推理 ✅ 脆弱性 ✅ 多模態 ✅ 神經形態運算 ✅ 符號 AI ✅ 神經符號整合