← M02 資料素養 M02 資料素養

M02.03|資料品質:垃圾進垃圾出的真相

AI 模型只能跟資料一樣好 — 餵垃圾進去,吐垃圾出來

L1-AI基礎知識-資料品質管理 L1-AI基礎知識-資料前處理基礎
資料品質 GIGO 品質維度
📋

本講學習重點

GIGO是什麼意思?
品質有哪六個維度?
常見的品質問題?
怎麼評估資料品質?

Garbage In Garbage Out,爛資料訓練出爛模型

完整性、正確性、一致性、時效性、唯一性、相關性

缺失值、重複紀錄、格式不統一、過期資料

用統計方法檢測異常值、空值比例、分布偏斜度

📌 資料品質的六大維度決定了AI模型的上限,投資資料清理比投資更好的演算法更有效。
資料品質:垃圾進垃圾出的真相

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

AI 模型的表現上限取決於資料品質 — 如果訓練資料有 30% 是錯的,你不可能訓練出一個 95% 準確率的模型,不管你用多先進的演算法。

白話解說

你有沒有在做菜的時候發現食材已經壞了?即使你是米其林主廚,用壞掉的魚也煮不出好吃的生魚片。AI 也一樣 — 這就是 GIGO 原則:Garbage In, Garbage Out(垃圾進,垃圾出)。

資料品質可以從六個維度來檢查,我稱之為「資料品質六脈神劍」:

完整性(Completeness):該有的欄位都有嗎?如果客戶資料表裡 40% 的電話號碼是空白的,那你的 AI 就無法用電話區碼做地理分析。缺失值是最常見的品質問題。

正確性(Accuracy):資料跟現實世界吻合嗎?如果客戶的生日填成 1800 年、地址寫成「asdfjkl」,這些資料不但沒用,還會誤導模型。

一致性(Consistency):同一件事在不同地方的記錄一樣嗎?如果 A 系統記錄客戶「台北市」、B 系統記錄「臺北市」、C 系統記錄「Taipei」,串在一起就會變成三個不同的城市。

時效性(Timeliness):資料夠新嗎?2020 年的消費者行為資料拿來預測 2026 年的趨勢,中間經歷了疫情和 AI 爆發,那些資料可能已經過時了。

唯一性(Uniqueness):有沒有重複的紀錄?同一個客戶因為系統合併被記錄了三次,你的 AI 會以為這個客戶的購買頻率是實際的三倍。

相關性(Relevance):這些資料跟你要解決的問題有關嗎?蒐集了客戶的血型來預測他的消費行為,這個欄位大概率只是噪音。

應用場景

場景:一家台灣銀行的信用卡詐騙偵測

某銀行要用 AI 偵測信用卡盜刷。他們有三年的交易資料,總共 5,000 萬筆。聽起來很多,但品質盤點後發現:

品質維度 問題 影響
完整性 12% 的交易缺少商店類別碼 無法學習「某類商店盜刷率高」的模式
正確性 部分交易金額因為幣別轉換有誤差 模型可能誤將正常的大額外幣交易標記為異常
一致性 同一商店在不同時期的名稱記錄不同 無法準確追蹤特定商店的詐騙模式
時效性 含 2020 年疫情期間資料 疫情期間消費模式異常,可能扭曲正常行為基準
唯一性 某些退款交易被重複記錄 虛增了交易量,稀釋了詐騙比例
相關性 蒐集了持卡人身高體重 跟詐騙完全無關,增加模型複雜度卻沒價值

銀行花了三個月修復這些問題後,模型的詐騙偵測率從 72% 提升到 89%。注意:他們用的是完全相同的演算法 — 改善的是資料品質,不是模型。

常見誤區

  1. 「資料品質不夠好就多蒐集一些」 — 量不能彌補質。如果你的資料蒐集流程本身就有問題(例如表單設計不良導致用戶亂填),多蒐集只是多了更多垃圾。正確做法是先修好蒐集流程,再擴大蒐集規模。

  2. 「AI 夠聰明,可以自己處理髒資料」 — 某些 AI 技術確實對噪音有一定的容忍度(例如深度學習的 dropout 機制),但這不代表你可以不做資料清理。AI 對系統性錯誤(如所有女性的職稱都填成「小姐」而非實際職稱)是無能為力的 — 它會把這個錯誤當作真實模式來學習。

  3. 「資料品質是 IT 部門的事」 — 資料品質的根源通常在業務端:業務員隨便填 CRM、客服人員跳過某些欄位、不同部門對同一個概念用不同的定義。改善資料品質需要從業務流程著手,不是 IT 部門寫個清理腳本就能解決的。

小練習

  1. 品質健檢:拿你手邊任何一份 Excel 報表或資料庫匯出檔,用六大維度逐一檢查:完整性(空值比例)、正確性(有沒有明顯錯誤的值)、一致性(同一欄位的格式是否統一)、時效性(資料多久更新一次)、唯一性(有沒有重複列)、相關性(有沒有跟目標無關的欄位)。記錄你發現最嚴重的三個問題。

  2. GIGO 案例分析:想一個你工作中曾經因為「資料品質不好」而導致決策錯誤或報表不準確的案例。它屬於六大維度中的哪一個問題?當時是怎麼發現的?如何避免再次發生?

點擊查看參考答案

練習 1:CRM 資料品質健檢範例

| 維度 | 檢查方法 | 發現問題 | 嚴重度 | |------|---------|---------|--------| | 完整性 | 統計空值比例 | 電話欄位 35% 為空 | ⚠️ 高 | | 正確性 | 檢查值域範圍 | 3 筆客戶年齡 > 150 歲 | 🔶 中 | | 一致性 | 比對格式 | 地址有「台北市」「臺北市」「TPE」三種寫法 | ⚠️ 高 | | 時效性 | 檢查更新日期 | 28% 的紀錄超過兩年未更新 | 🔶 中 | | 唯一性 | 比對姓名+電話 | 發現 5% 重複客戶 | 🔶 中 | | 相關性 | 審查欄位清單 | 「興趣愛好」欄位 90% 空白且從未使用 | 🟢 低 | > **優先處理順序**:完整性(空值太多直接影響模型)→ 一致性(格式不統一會讓模型誤判)→ 唯一性(重複紀錄扭曲統計結果)。

練習 2:GIGO 真實案例

**案例**:行銷團隊依據 CRM 中的「客戶所在縣市」做區域行銷預算分配,結果發現台中的預算異常偏高。 - **問題維度**:一致性 + 正確性 - **原因**:大量客戶地址只填了「台中」而非完整地址,系統無法區分台中市與台中縣(已合併)。加上部分業務員將公司地址填成客戶地址。 - **發現方式**:區域主管反映「台中客戶數跟實際拜訪量差太多」 - **改善措施**:改用下拉選單(非自由填寫)、加入地址驗證 API、定期比對營業登記地址 > **教訓**:自由文字欄位是資料品質的天敵。能用選單就不要用文字框,能自動帶入就不要手動填寫。

關鍵字自我檢核

✅ 資料品質維度 ✅ 垃圾進垃圾出 ✅ 品質檢測