← iPAS 補充教材總覽 iPAS AI 應用規劃師 2026 考點補充

隱私保護 AI 技術

聯邦學習、差分隱私、同態加密的原理與企業場景,跨機構協作訓練的實務架構

為什麼隱私保護 AI 是 2026 必考重點?

AI 模型的訓練需要大量資料,但在醫療、金融、政府等領域,資料不能隨便移動。2026 年的考題趨勢已從「怎麼收集更多資料」轉向「如何在保護隱私的前提下訓練更好的模型」。

考試重點:隱私保護 AI 的核心問題 — 「資料不出門,模型照樣學」

典型考題場景

  • 「三家醫院想聯合訓練疾病預測模型,但患者資料不能離開各醫院」→ 聯邦學習
  • 「政府要公開統計數據,但不能讓人反推出個人資料」→ 差分隱私
  • 「金融機構要用雲端 AI 分析客戶資料,但資料不能讓雲端看到」→ 同態加密

聯邦學習 (Federated Learning)

核心概念

聯邦學習是一種分散式機器學習架構:資料留在各個參與方本地,只交換模型參數(梯度),不交換原始資料。

運作流程

┌─────────┐     ┌─────────┐     ┌─────────┐
│ 醫院 A   │     │ 醫院 B   │     │ 醫院 C   │
│ 本地資料  │     │ 本地資料  │     │ 本地資料  │
│ 本地訓練  │     │ 本地訓練  │     │ 本地訓練  │
└────┬─────┘     └────┬─────┘     └────┬─────┘
     │ 上傳梯度      │ 上傳梯度      │ 上傳梯度
     ▼               ▼               ▼
   ┌──────────────────────────────────┐
   │        中央聚合伺服器              │
   │    聚合梯度 → 更新全域模型          │
   └──────────────────────────────────┘
     │ 下發更新模型  │               │
     ▼               ▼               ▼
   各方得到更好的模型,但從未看過其他方的資料

兩種聯邦學習架構

類型 說明 場景
橫向聯邦 各方有相同特徵、不同樣本 不同醫院的同類病歷
縱向聯邦 各方有相同樣本、不同特徵 銀行有收入資料 + 電信有通話資料,同一批客戶

聚合演算法

  • FedAvg(聯邦平均):最基本的聚合方式,對各方梯度做加權平均
  • FedProx:處理各方資料分佈不均(Non-IID)的改良版
  • Secure Aggregation:加密聚合,中央伺服器也看不到個別梯度

實務挑戰

挑戰 說明
Non-IID 資料 各方資料分佈差異大,影響收斂
通訊成本 每輪需上下傳大量參數
搭便車攻擊 有人不好好訓練,只享受全域模型
梯度洩漏 即使只傳梯度,仍可能被反推出部分原始資料

常見題型:「在不移動數據的前提下訓練跨院醫療模型,應採用何種技術?」→ 聯邦學習


差分隱私 (Differential Privacy)

核心概念

差分隱私的數學定義:對於任何一筆個人資料的加入或移除,查詢結果的分佈變化不超過 ε。

白話翻譯:有你沒你,結果看起來差不多。攻擊者無法從輸出結果推斷任何單一個人的資料。

隱私預算 ε

ε 值 隱私保護程度 資料效用
ε ≤ 1 強隱私保護 較低效用(雜訊大)
1 < ε ≤ 10 中等隱私保護 實務常用範圍
ε > 10 弱隱私保護 高效用(接近原始)

考試重點:ε 越小 → 隱私保護越強 → 但資料效用越低(隱私 vs 效用的取捨)

實現方式

方式 加雜訊的時機 範例
中央式 資料收集後,在查詢結果加雜訊 Apple 的使用統計(差分隱私保護後上傳)
本地式 資料離開使用者前就加雜訊 Google RAPPOR(Chrome 瀏覽統計)

應用場景

  • Apple:鍵盤預測、emoji 使用頻率統計(本地差分隱私)
  • Google:Chrome 瀏覽行為統計(RAPPOR 協定)
  • 美國人口普查:2020 年普查首次大規模使用差分隱私
  • 醫療研究:公開疾病統計數據時保護患者身份

常見題型:「政府公開統計資料時,如何防止個人身份被反推?」→ 差分隱私


同態加密 (Homomorphic Encryption)

核心概念

同態加密允許在加密資料上直接進行運算,解密後的結果等同於在明文上運算的結果。

明文 3 + 明文 5 = 明文 8

加密(3) + 加密(5) = 加密(8)  ← 全程不需解密!

三種類型

類型 支援運算 效能 實用性
部分同態 (PHE) 僅加法或僅乘法 已實用
近似同態 (SHE) 有限次加法+乘法 中等 部分實用
全同態 (FHE) 任意運算 極慢(10,000倍+) 研究階段

企業場景

  • 雲端 AI 推論:將加密資料送到雲端,雲端在密文上跑模型,結果傳回本地解密
  • 跨行聯合徵信:各銀行加密客戶信用資料,聯合計算風險分數
  • 醫療基因分析:基因資料加密後送雲端分析,雲端無法看到基因序列

考試重點:同態加密目前 FHE 的運算開銷極大,實務上多用 PHE 處理特定場景


三大技術比較(必背表格)

面向 聯邦學習 差分隱私 同態加密
核心思路 資料不動,模型動 加雜訊模糊個人貢獻 在密文上直接運算
保護對象 原始資料不出本地 個人在統計中不可識別 資料全程加密
效能影響 通訊成本增加 精確度下降(雜訊) 運算速度大幅下降
成熟度 生產可用 生產可用 部分可用(PHE)
代表應用 跨醫院聯合訓練 Apple/Google 統計 雲端密文推論
常考場景 「不移動資料訓練模型」 「公開統計不洩漏個人」 「加密資料上跑 AI」

組合使用

實務上三種技術經常組合使用

  • 聯邦學習 + 差分隱私:聯邦學習時對梯度加差分隱私雜訊,防止梯度洩漏
  • 聯邦學習 + 同態加密:聯邦學習中的梯度傳輸用同態加密保護
  • 三者結合:最高安全等級,用於軍事、國安等場景

規劃師視角:隱私保護技術選型

決策樹

需求:多方協作訓練 AI 模型
├── 各方有相似資料結構?
│   ├── 是(橫向) → 聯邦學習 (FedAvg)
│   └── 否(縱向) → 縱向聯邦學習
├── 需要公開統計/分析結果?
│   └── 是 → 差分隱私 (ε 調校)
├── 需要在第三方環境運算?
│   └── 是 → 同態加密 (PHE/SHE)
└── 需要最高安全等級?
    └── 是 → 聯邦學習 + 差分隱私 + 安全聚合

導入成本參考

技術 開發複雜度 效能開銷 基礎設施需求
聯邦學習 中(通訊瓶頸) 各方需部署本地訓練環境
差分隱私 低(加雜訊成本極低) 幾乎無額外需求
同態加密 極高 極高(運算放大) 高效能運算環境

模擬試題

題目 1:三家醫院希望聯合訓練一個疾病預測模型,但患者資料因法規限制不能離開各醫院。以下哪種技術最適合?

  • (A) 資料倉儲整合 (Data Warehouse)
  • (B) 聯邦學習 (Federated Learning)
  • (C) 資料脫敏後集中訓練
  • (D) 遷移學習 (Transfer Learning)
查看答案 答案:(B)。聯邦學習讓資料留在各醫院本地,只交換模型梯度。(A) 違反不移動資料的前提,(C) 脫敏後仍有再識別風險,(D) 遷移學習解決的是模型適應性問題,不解決隱私問題。

題目 2:差分隱私的隱私預算 ε,以下敘述何者正確?

  • (A) ε 越大,隱私保護越強
  • (B) ε = 0 代表完全沒有隱私保護
  • (C) ε 越小,查詢結果的雜訊越大
  • (D) ε 值固定後,可以無限次查詢而不降低隱私保護
查看答案 答案:(C)。ε 越小代表隱私保護越強,相應的雜訊也越大。(A) 敘述相反,(B) ε=0 代表完美隱私(不可能達到的理想值),(D) 每次查詢都消耗隱私預算,多次查詢會累積洩漏風險。

題目 3:以下哪個場景最適合使用同態加密?

  • (A) 兩家醫院聯合訓練診斷模型
  • (B) 政府公開人口統計資料
  • (C) 企業將加密客戶資料送到雲端 AI 服務進行推論
  • (D) 訓練資料的離群值偵測
查看答案 答案:(C)。同態加密的核心場景是「在第三方(雲端)的密文上直接運算」,企業資料全程加密,雲端只處理密文。(A) 適合聯邦學習,(B) 適合差分隱私,(D) 是資料前處理問題。