← M02 資料素養 M02 資料素養

M02.01｜資料的本質：什麼是資料，為什麼 AI 離不開它

沒有資料的 AI 就像沒有食材的廚師 — 再厲害也煮不出菜

L1-AI基礎知識-資料基礎概念 L1-AI基礎知識-資料驅動決策

🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 📶 解決先備條件

📋

本講學習重點

資料、資訊、知識有什麼差別?

AI為什麼需要資料?

資料驅動vs規則驅動?

多少資料才算夠?

資料是原始事實(數字/文字/圖片)，資訊是有意義的解讀，知識是可行動的判斷

AI透過大量資料學習模式，資料越多越多元，模型越準

規則驅動靠人寫邏輯，資料驅動靠機器從資料中學

沒有固定答案，取決於問題複雜度、資料品質和模型類型

📌 資料是 AI 的燃料，理解資料→資訊→知識的轉化鏈，是掌握 AI 的第一步。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

資料是 AI 的原料 — 就像廚師需要食材才能做菜，AI 需要大量資料才能學會辨識模式和做預測。

白話解說

你去看醫生，醫生問你「哪裡不舒服」、量體溫、看驗血報告。體溫 38.5°C 是資料（Data）— 一個原始的數字。醫生結合症狀判斷「你可能在發燒」— 這是資訊（Information）。醫生根據經驗說「吃這個藥、多喝水、明天再來複診」— 這是知識（Knowledge）。

AI 的學習過程也走這條路：先餵大量原始資料（幾萬張貓狗照片），然後透過演算法從資料中萃取資訊（貓有尖耳朵、狗鼻子比較長），最後把這些資訊內化成知識（可以判斷新照片是貓還是狗的模型）。

這就引出一個關鍵概念：資料驅動 vs 規則驅動。傳統程式是「規則驅動」— 工程師寫 if-else 規則告訴程式該怎麼做。AI 是「資料驅動」— 你給它大量範例，讓它自己從資料中學出規則。

舉個簡單例子：你要寫一個分辨垃圾郵件的程式。規則驅動的做法是列出一堆關鍵字（「中獎」、「免費」、「限時」），碰到就標記為垃圾。資料驅動的做法是丟十萬封已標記好的郵件給 AI，讓它自己學出什麼樣的郵件是垃圾。後者的好處是，當垃圾郵件換了新花招，AI 只要用新資料重新訓練就能跟上，不需要工程師手動更新規則。

但這也意味著一個殘酷的事實：AI 的天花板取決於資料的品質和數量。再強的演算法，碰到爛資料也是白搭。這就是「垃圾進，垃圾出」（Garbage In, Garbage Out）的核心精神，也是我們後面會深入討論的主題。

應用場景

場景：一家連鎖超市的資料驅動轉型

台灣一家擁有 200 家門市的連鎖超市，過去都是靠店長的經驗來決定「明天要進多少顆高麗菜」。這是規則驅動 — 規則就是店長腦袋裡的經驗法則。

轉型成資料驅動後，他們開始蒐集：

交易資料：每天每個品項賣了多少（POS 系統）
外部資料：天氣預報、節假日、促銷活動
歷史趨勢：過去三年同期的銷售量

把這些資料整合後，AI 可以預測「下週三台北門市的高麗菜需求量是 150 顆，比平常多 20%，因為天氣轉涼火鍋需求上升」。

結果：生鮮報廢率從 8% 降到 3%，相當於每年省下數百萬。這就是從「經驗驅動」到「資料驅動」的具體價值。

常見誤區

「資料越多越好」 — 資料量大是好事，但品質更重要。如果你蒐集了一百萬筆客戶資料，其中 30% 是重複的、20% 是錯誤的，那有效資料其實只有五十萬筆。更糟的是，髒資料會讓模型學到錯誤的模式。質量要並重，不能只追求數量。
「有了 AI 就不需要人來看資料了」 — AI 是從資料中學模式，但它不知道那些模式是否合理。例如一個銷售預測模型發現「氣溫越高冰淇淋賣越多」這很合理；但如果它發現「店員叫小美的門市業績特別好」，這只是巧合不是因果。人類仍需要用領域知識來判斷 AI 發現的模式是否有意義。
「資料就是數字」 — 資料不只是 Excel 裡的數字。圖片是資料（像素矩陣）、語音是資料（聲波波形）、文字是資料（字元序列）、甚至你的滑鼠移動軌跡也是資料。AI 時代的「資料」定義遠比傳統的報表數據寬廣得多。

小練習

DIKW 金字塔練習：從你的日常工作中，找出一個具體的例子，分別填入：原始資料（Data）是什麼、整理後的資訊（Information）是什麼、可以行動的知識（Knowledge）是什麼、最終的智慧（Wisdom）決策又是什麼。
資料盤點：列出你部門目前擁有的五種資料來源（例如 CRM 系統、Excel 報表、Email 紀錄等），然後評估每一種：(a) 是結構化還是非結構化？(b) 資料量大約多少？(c) 品質如何（完整度、正確性）？

點擊查看參考答案

練習 1：行銷部門 DIKW 範例

| 層級 | 內容 | 說明 | |------|------|------| | **Data（資料）** | 網站昨天有 12,345 次瀏覽 | 原始數字，沒有解讀 | | **Information（資訊）** | 比上週同日多 25%，主要來自 Facebook 廣告 | 有比較、有歸因 | | **Knowledge（知識）** | FB 廣告的 CPC 低於 Google，適合品牌曝光型活動 | 可重複應用的判斷 | | **Wisdom（智慧）** | 下季預算從 Google 移 30% 到 FB，但保留搜尋廣告做轉換 | 綜合多維度的決策 | > **重點**：每一層都在前一層的基礎上加入「人類的解讀與判斷」。AI 擅長從 Data 到 Information 的轉換，但 Knowledge 和 Wisdom 仍高度依賴人類的領域經驗。

練習 2：典型中小企業資料盤點

| 資料來源 | 類型 | 資料量 | 品質評估 | |---------|------|--------|---------| | ERP 訂單系統 | 結構化 | 50 萬筆/年 | 高（系統自動產生） | | 客服 Email | 非結構化 | 2 萬封/年 | 中（需人工分類） | | 社群留言 | 非結構化 | 10 萬則/年 | 低（充斥表情符號、錯字） | | Excel 銷售報表 | 半結構化 | 200 個檔案 | 低（格式不統一、多人編輯） | | CRM 客戶資料 | 結構化 | 3 萬筆 | 中（20% 電話/地址過期） | > **發現**：多數企業的結構化資料品質較好（系統自動產生），非結構化和半結構化資料需要大量清理才能用於 AI 訓練。

關鍵字自我檢核

✅ 資料vs資訊 ✅ 資料驅動 ✅ 數據思維