← M02 資料素養 M02 資料素養

M02.08|資料隱私與個資保護:GDPR、台灣個資法

蒐集資料很容易,搞砸隱私很簡單 — 罰款和商譽損失才是真正的代價

L1-AI基礎知識-資料隱私基礎 L1-AI應用規劃-個資法合規 L2-AI系統部署-隱私保護技術
資料隱私 個資保護 GDPR 個資法
📋

本講學習重點

GDPR核心原則是什麼?
台灣個資法怎麼規定?
去識別化vs匿名化?
隱私設計(PbD)怎麼做?

合法性、目的限制、資料最小化、儲存期限限制、完整性與機密性

蒐集需特定目的+書面同意,違規最高罰2000萬

去識別化仍可能被重新識別,真正匿名化技術門檻更高

從系統設計之初就內建隱私保護,而非事後補救

📌 AI專案必須從設計之初就將隱私保護內建其中,事後補救成本極高且往往不夠。
資料隱私與個資保護:GDPR、台灣個資法

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

AI 專案處理個人資料時,必須同時遵守法規(GDPR、台灣個資法)和倫理標準 — 違規的代價是天價罰款加上無法修復的信任損失。

白話解說

你有沒有收過一封你完全沒印象訂閱過的電子報?或者接過一通「您好,我們是某某保險公司」的推銷電話?你的個資就是這樣在你不知情的情況下被蒐集、被交易、被使用的。AI 時代讓這個問題更嚴重 — 因為 AI 可以用你的資料做出你自己都不知道的推論。

GDPR(歐盟通用資料保護規則) 是全球最嚴格的隱私法規,2018 年上路後改變了全球企業處理個資的方式。它的核心原則包括:

  • 合法性:蒐集資料必須有合法基礎(用戶明確同意、合約必要、法律義務等)
  • 目的限制:蒐集來做 A 用途的資料,不能偷偷拿去做 B 用途
  • 資料最小化:只蒐集完成目的所必需的最少量資料
  • 被遺忘權:用戶有權要求你刪除他的所有資料
  • 可解釋權:如果 AI 做了影響用戶的自動化決策,用戶有權要求解釋

違反 GDPR 的罰款上限是全球年營收的 4%。Meta(Facebook)曾被罰 12 億歐元 — 是的,十二億歐元。

台灣個資法的主要規定:

  • 蒐集個資需要「特定目的」和「當事人書面同意」
  • 個資外洩必須在發現後 72 小時內通報
  • 違規最高罰款 NT$2,000 萬
  • 非公務機關違反個資法致他人受損害,需負損害賠償責任

AI 專案最常踩的隱私紅線是目的外使用。你的客服系統蒐集了客戶的對話紀錄來「改善服務品質」,結果你拿這些對話去訓練一個行銷推薦模型 — 這就超出了原始蒐集的目的。即使技術上可行,法律上可能違規。

去識別化(De-identification)匿名化(Anonymization) 是兩個常被混淆的概念。去識別化是把直接識別資訊(姓名、身分證號)移除或遮蔽,但資料仍可能透過交叉比對被重新識別。匿名化則是讓資料在技術上不可能被追溯到個人 — 這需要更高的技術門檻(如差分隱私、k-匿名化)。

應用場景

場景:一家台灣電商的隱私設計實踐

一家電商要建 AI 推薦系統,需要處理大量用戶行為資料。他們採用隱私設計(Privacy by Design) 七原則:

原則 具體做法
預防而非補救 系統設計時就決定哪些資料可蒐集、保留多久
預設隱私保護 用戶不做任何設定時,預設就是最高隱私級別
嵌入設計 資料加密、存取權限控管寫在架構規格中
全面功能 隱私保護不犧牲推薦準確度(用聯邦學習替代集中式訓練)
全生命週期 資料從蒐集到刪除的每個階段都有保護措施
透明可見 用戶隨時可查看「平台用了我的哪些資料」
尊重用戶 提供一鍵匯出和刪除所有個資的功能

結果:用戶信任度調查從 62% 提升到 81%,而且因為資料更乾淨(用戶主動提供的資料品質 > 偷偷蒐集的),推薦模型的點擊率反而提升了 15%。

常見誤區

  1. 「我們是台灣公司,不用管 GDPR」 — 如果你的網站有歐盟用戶、或者你跟歐盟公司做生意,GDPR 就可能適用於你。而且台灣個資法本身的要求也不低。更重要的是,隱私保護是趨勢 — Apple 的 ATT(App Tracking Transparency)、Google 的 Privacy Sandbox 都在限縮追蹤能力。現在不做,以後更痛。

  2. 「把姓名和身分證號碼遮掉就算匿名了」 — 研究顯示,只需要郵遞區號 + 生日 + 性別三個欄位,就能唯一識別 87% 的美國人。台灣人口密度更高但行政區劃更細,重新識別的風險同樣存在。真正的匿名化需要更進階的技術(差分隱私、k-匿名化、資料合成)。

  3. 「蒐集同意書簽了就沒事了」 — 同意書的有效性取決於它是否清楚說明了蒐集目的、使用範圍和保存期限。很多企業的同意書寫得又長又模糊(「我們可能將您的資料用於改善服務及相關用途」),這種模糊的同意在法律上可能無效。GDPR 要求同意必須是「明確的、具體的、知情的」。

小練習

  1. 隱私影響評估:選一個你公司正在使用的 AI 應用(或你想導入的 AI 應用),回答以下問題:
    • 它蒐集了哪些個人資料?
    • 蒐集的法律基礎是什麼(用戶同意?合約必要?)
    • 資料保存多久?有沒有刪除機制?
    • 如果資料外洩,影響範圍有多大?
  2. 去識別化練習:以下客戶資料表,你會怎麼做去識別化處理?哪些欄位要移除、哪些要遮蔽、哪些可以保留?
    • 欄位:姓名、身分證號、出生日期、性別、郵遞區號、手機號碼、最近購買金額、購買品項
點擊查看參考答案

練習 1:智慧客服隱私影響評估

| 評估項目 | 內容 | |---------|------| | 蒐集的個資 | 姓名、Email、對話內容、IP 位址、裝置資訊 | | 法律基礎 | 合約必要(提供客服服務) + 同意(用於改善服務) | | 保存期限 | 對話紀錄保存 2 年後自動刪除 | | 外洩影響 | 中高 — 對話內容可能包含訂單資訊、個人偏好、投訴細節 | | 改善建議 | 對話紀錄用於 AI 訓練前需額外取得同意;IP 和裝置資訊在分析後立即匿名化 | > **關鍵**:「提供客服服務」和「用對話資料訓練 AI」是兩個不同的目的。後者需要額外的同意機制。

練習 2:客戶資料去識別化

| 欄位 | 處理方式 | 理由 | |------|---------|------| | 姓名 | **移除** | 直接識別資訊 | | 身分證號 | **移除** | 直接識別資訊,最敏感 | | 出生日期 | **模糊化** → 只保留年份 | 完整生日+性別+郵遞區號可重新識別 | | 性別 | **保留** | 單獨無法識別個人 | | 郵遞區號 | **模糊化** → 只保留前 3 碼 | 5 碼郵遞區號太精確 | | 手機號碼 | **移除** | 直接識別資訊 | | 購買金額 | **保留** | 分析必需且不含個資 | | 購買品項 | **保留** | 分析必需(但極特殊品項可能需模糊化) | > **原則**:移除所有直接識別資訊(姓名、證號、電話),模糊化準識別資訊(生日、郵遞區號),保留分析必需的行為資料。

關鍵字自我檢核

✅ GDPR ✅ 台灣個資法 ✅ 去識別化 ✅ 隱私設計