為什麼隱私保護 AI 是 2026 必考重點?
AI 模型的訓練需要大量資料,但在醫療、金融、政府等領域,資料不能隨便移動。2026 年的考題趨勢已從「怎麼收集更多資料」轉向「如何在保護隱私的前提下訓練更好的模型」。
考試重點:隱私保護 AI 的核心問題 — 「資料不出門,模型照樣學」
典型考題場景
- 「三家醫院想聯合訓練疾病預測模型,但患者資料不能離開各醫院」→ 聯邦學習
- 「政府要公開統計數據,但不能讓人反推出個人資料」→ 差分隱私
- 「金融機構要用雲端 AI 分析客戶資料,但資料不能讓雲端看到」→ 同態加密
聯邦學習 (Federated Learning)
核心概念
聯邦學習是一種分散式機器學習架構:資料留在各個參與方本地,只交換模型參數(梯度),不交換原始資料。
運作流程
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 醫院 A │ │ 醫院 B │ │ 醫院 C │
│ 本地資料 │ │ 本地資料 │ │ 本地資料 │
│ 本地訓練 │ │ 本地訓練 │ │ 本地訓練 │
└────┬─────┘ └────┬─────┘ └────┬─────┘
│ 上傳梯度 │ 上傳梯度 │ 上傳梯度
▼ ▼ ▼
┌──────────────────────────────────┐
│ 中央聚合伺服器 │
│ 聚合梯度 → 更新全域模型 │
└──────────────────────────────────┘
│ 下發更新模型 │ │
▼ ▼ ▼
各方得到更好的模型,但從未看過其他方的資料
兩種聯邦學習架構
| 類型 | 說明 | 場景 |
|---|---|---|
| 橫向聯邦 | 各方有相同特徵、不同樣本 | 不同醫院的同類病歷 |
| 縱向聯邦 | 各方有相同樣本、不同特徵 | 銀行有收入資料 + 電信有通話資料,同一批客戶 |
聚合演算法
- FedAvg(聯邦平均):最基本的聚合方式,對各方梯度做加權平均
- FedProx:處理各方資料分佈不均(Non-IID)的改良版
- Secure Aggregation:加密聚合,中央伺服器也看不到個別梯度
實務挑戰
| 挑戰 | 說明 |
|---|---|
| Non-IID 資料 | 各方資料分佈差異大,影響收斂 |
| 通訊成本 | 每輪需上下傳大量參數 |
| 搭便車攻擊 | 有人不好好訓練,只享受全域模型 |
| 梯度洩漏 | 即使只傳梯度,仍可能被反推出部分原始資料 |
常見題型:「在不移動數據的前提下訓練跨院醫療模型,應採用何種技術?」→ 聯邦學習
差分隱私 (Differential Privacy)
核心概念
差分隱私的數學定義:對於任何一筆個人資料的加入或移除,查詢結果的分佈變化不超過 ε。
白話翻譯:有你沒你,結果看起來差不多。攻擊者無法從輸出結果推斷任何單一個人的資料。
隱私預算 ε
| ε 值 | 隱私保護程度 | 資料效用 |
|---|---|---|
| ε ≤ 1 | 強隱私保護 | 較低效用(雜訊大) |
| 1 < ε ≤ 10 | 中等隱私保護 | 實務常用範圍 |
| ε > 10 | 弱隱私保護 | 高效用(接近原始) |
考試重點:ε 越小 → 隱私保護越強 → 但資料效用越低(隱私 vs 效用的取捨)
實現方式
| 方式 | 加雜訊的時機 | 範例 |
|---|---|---|
| 中央式 | 資料收集後,在查詢結果加雜訊 | Apple 的使用統計(差分隱私保護後上傳) |
| 本地式 | 資料離開使用者前就加雜訊 | Google RAPPOR(Chrome 瀏覽統計) |
應用場景
- Apple:鍵盤預測、emoji 使用頻率統計(本地差分隱私)
- Google:Chrome 瀏覽行為統計(RAPPOR 協定)
- 美國人口普查:2020 年普查首次大規模使用差分隱私
- 醫療研究:公開疾病統計數據時保護患者身份
常見題型:「政府公開統計資料時,如何防止個人身份被反推?」→ 差分隱私
同態加密 (Homomorphic Encryption)
核心概念
同態加密允許在加密資料上直接進行運算,解密後的結果等同於在明文上運算的結果。
明文 3 + 明文 5 = 明文 8
加密(3) + 加密(5) = 加密(8) ← 全程不需解密!
三種類型
| 類型 | 支援運算 | 效能 | 實用性 |
|---|---|---|---|
| 部分同態 (PHE) | 僅加法或僅乘法 | 快 | 已實用 |
| 近似同態 (SHE) | 有限次加法+乘法 | 中等 | 部分實用 |
| 全同態 (FHE) | 任意運算 | 極慢(10,000倍+) | 研究階段 |
企業場景
- 雲端 AI 推論:將加密資料送到雲端,雲端在密文上跑模型,結果傳回本地解密
- 跨行聯合徵信:各銀行加密客戶信用資料,聯合計算風險分數
- 醫療基因分析:基因資料加密後送雲端分析,雲端無法看到基因序列
考試重點:同態加密目前 FHE 的運算開銷極大,實務上多用 PHE 處理特定場景
三大技術比較(必背表格)
| 面向 | 聯邦學習 | 差分隱私 | 同態加密 |
|---|---|---|---|
| 核心思路 | 資料不動,模型動 | 加雜訊模糊個人貢獻 | 在密文上直接運算 |
| 保護對象 | 原始資料不出本地 | 個人在統計中不可識別 | 資料全程加密 |
| 效能影響 | 通訊成本增加 | 精確度下降(雜訊) | 運算速度大幅下降 |
| 成熟度 | 生產可用 | 生產可用 | 部分可用(PHE) |
| 代表應用 | 跨醫院聯合訓練 | Apple/Google 統計 | 雲端密文推論 |
| 常考場景 | 「不移動資料訓練模型」 | 「公開統計不洩漏個人」 | 「加密資料上跑 AI」 |
組合使用
實務上三種技術經常組合使用:
- 聯邦學習 + 差分隱私:聯邦學習時對梯度加差分隱私雜訊,防止梯度洩漏
- 聯邦學習 + 同態加密:聯邦學習中的梯度傳輸用同態加密保護
- 三者結合:最高安全等級,用於軍事、國安等場景
規劃師視角:隱私保護技術選型
決策樹
需求:多方協作訓練 AI 模型
├── 各方有相似資料結構?
│ ├── 是(橫向) → 聯邦學習 (FedAvg)
│ └── 否(縱向) → 縱向聯邦學習
├── 需要公開統計/分析結果?
│ └── 是 → 差分隱私 (ε 調校)
├── 需要在第三方環境運算?
│ └── 是 → 同態加密 (PHE/SHE)
└── 需要最高安全等級?
└── 是 → 聯邦學習 + 差分隱私 + 安全聚合
導入成本參考
| 技術 | 開發複雜度 | 效能開銷 | 基礎設施需求 |
|---|---|---|---|
| 聯邦學習 | 高 | 中(通訊瓶頸) | 各方需部署本地訓練環境 |
| 差分隱私 | 中 | 低(加雜訊成本極低) | 幾乎無額外需求 |
| 同態加密 | 極高 | 極高(運算放大) | 高效能運算環境 |
模擬試題
題目 1:三家醫院希望聯合訓練一個疾病預測模型,但患者資料因法規限制不能離開各醫院。以下哪種技術最適合?
- (A) 資料倉儲整合 (Data Warehouse)
- (B) 聯邦學習 (Federated Learning)
- (C) 資料脫敏後集中訓練
- (D) 遷移學習 (Transfer Learning)
查看答案
答案:(B)。聯邦學習讓資料留在各醫院本地,只交換模型梯度。(A) 違反不移動資料的前提,(C) 脫敏後仍有再識別風險,(D) 遷移學習解決的是模型適應性問題,不解決隱私問題。題目 2:差分隱私的隱私預算 ε,以下敘述何者正確?
- (A) ε 越大,隱私保護越強
- (B) ε = 0 代表完全沒有隱私保護
- (C) ε 越小,查詢結果的雜訊越大
- (D) ε 值固定後,可以無限次查詢而不降低隱私保護
查看答案
答案:(C)。ε 越小代表隱私保護越強,相應的雜訊也越大。(A) 敘述相反,(B) ε=0 代表完美隱私(不可能達到的理想值),(D) 每次查詢都消耗隱私預算,多次查詢會累積洩漏風險。題目 3:以下哪個場景最適合使用同態加密?
- (A) 兩家醫院聯合訓練診斷模型
- (B) 政府公開人口統計資料
- (C) 企業將加密客戶資料送到雲端 AI 服務進行推論
- (D) 訓練資料的離群值偵測