← M02 資料素養 M02 資料素養

M02.01|資料的本質:什麼是資料,為什麼 AI 離不開它

沒有資料的 AI 就像沒有食材的廚師 — 再厲害也煮不出菜

L1-AI基礎知識-資料基礎概念 L1-AI基礎知識-資料驅動決策
資料定義 資料驅動 AI基礎
📋

本講學習重點

資料、資訊、知識有什麼差別?
AI為什麼需要資料?
資料驅動vs規則驅動?
多少資料才算夠?

資料是原始事實(數字/文字/圖片),資訊是有意義的解讀,知識是可行動的判斷

AI透過大量資料學習模式,資料越多越多元,模型越準

規則驅動靠人寫邏輯,資料驅動靠機器從資料中學

沒有固定答案,取決於問題複雜度、資料品質和模型類型

📌 資料是 AI 的燃料,理解資料→資訊→知識的轉化鏈,是掌握 AI 的第一步。
資料的本質:什麼是資料,為什麼 AI 離不開它

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

資料是 AI 的原料 — 就像廚師需要食材才能做菜,AI 需要大量資料才能學會辨識模式和做預測。

白話解說

你去看醫生,醫生問你「哪裡不舒服」、量體溫、看驗血報告。體溫 38.5°C 是資料(Data)— 一個原始的數字。醫生結合症狀判斷「你可能在發燒」— 這是資訊(Information)。醫生根據經驗說「吃這個藥、多喝水、明天再來複診」— 這是知識(Knowledge)。

AI 的學習過程也走這條路:先餵大量原始資料(幾萬張貓狗照片),然後透過演算法從資料中萃取資訊(貓有尖耳朵、狗鼻子比較長),最後把這些資訊內化成知識(可以判斷新照片是貓還是狗的模型)。

這就引出一個關鍵概念:資料驅動 vs 規則驅動。傳統程式是「規則驅動」— 工程師寫 if-else 規則告訴程式該怎麼做。AI 是「資料驅動」— 你給它大量範例,讓它自己從資料中學出規則。

舉個簡單例子:你要寫一個分辨垃圾郵件的程式。規則驅動的做法是列出一堆關鍵字(「中獎」、「免費」、「限時」),碰到就標記為垃圾。資料驅動的做法是丟十萬封已標記好的郵件給 AI,讓它自己學出什麼樣的郵件是垃圾。後者的好處是,當垃圾郵件換了新花招,AI 只要用新資料重新訓練就能跟上,不需要工程師手動更新規則。

但這也意味著一個殘酷的事實:AI 的天花板取決於資料的品質和數量。再強的演算法,碰到爛資料也是白搭。這就是「垃圾進,垃圾出」(Garbage In, Garbage Out)的核心精神,也是我們後面會深入討論的主題。

應用場景

場景:一家連鎖超市的資料驅動轉型

台灣一家擁有 200 家門市的連鎖超市,過去都是靠店長的經驗來決定「明天要進多少顆高麗菜」。這是規則驅動 — 規則就是店長腦袋裡的經驗法則。

轉型成資料驅動後,他們開始蒐集:

  • 交易資料:每天每個品項賣了多少(POS 系統)
  • 外部資料:天氣預報、節假日、促銷活動
  • 歷史趨勢:過去三年同期的銷售量

把這些資料整合後,AI 可以預測「下週三台北門市的高麗菜需求量是 150 顆,比平常多 20%,因為天氣轉涼火鍋需求上升」。

結果:生鮮報廢率從 8% 降到 3%,相當於每年省下數百萬。這就是從「經驗驅動」到「資料驅動」的具體價值。

常見誤區

  1. 「資料越多越好」 — 資料量大是好事,但品質更重要。如果你蒐集了一百萬筆客戶資料,其中 30% 是重複的、20% 是錯誤的,那有效資料其實只有五十萬筆。更糟的是,髒資料會讓模型學到錯誤的模式。質量要並重,不能只追求數量。

  2. 「有了 AI 就不需要人來看資料了」 — AI 是從資料中學模式,但它不知道那些模式是否合理。例如一個銷售預測模型發現「氣溫越高冰淇淋賣越多」這很合理;但如果它發現「店員叫小美的門市業績特別好」,這只是巧合不是因果。人類仍需要用領域知識來判斷 AI 發現的模式是否有意義。

  3. 「資料就是數字」 — 資料不只是 Excel 裡的數字。圖片是資料(像素矩陣)、語音是資料(聲波波形)、文字是資料(字元序列)、甚至你的滑鼠移動軌跡也是資料。AI 時代的「資料」定義遠比傳統的報表數據寬廣得多。

小練習

  1. DIKW 金字塔練習:從你的日常工作中,找出一個具體的例子,分別填入:原始資料(Data)是什麼、整理後的資訊(Information)是什麼、可以行動的知識(Knowledge)是什麼、最終的智慧(Wisdom)決策又是什麼。

  2. 資料盤點:列出你部門目前擁有的五種資料來源(例如 CRM 系統、Excel 報表、Email 紀錄等),然後評估每一種:(a) 是結構化還是非結構化?(b) 資料量大約多少?(c) 品質如何(完整度、正確性)?

點擊查看參考答案

練習 1:行銷部門 DIKW 範例

| 層級 | 內容 | 說明 | |------|------|------| | **Data(資料)** | 網站昨天有 12,345 次瀏覽 | 原始數字,沒有解讀 | | **Information(資訊)** | 比上週同日多 25%,主要來自 Facebook 廣告 | 有比較、有歸因 | | **Knowledge(知識)** | FB 廣告的 CPC 低於 Google,適合品牌曝光型活動 | 可重複應用的判斷 | | **Wisdom(智慧)** | 下季預算從 Google 移 30% 到 FB,但保留搜尋廣告做轉換 | 綜合多維度的決策 | > **重點**:每一層都在前一層的基礎上加入「人類的解讀與判斷」。AI 擅長從 Data 到 Information 的轉換,但 Knowledge 和 Wisdom 仍高度依賴人類的領域經驗。

練習 2:典型中小企業資料盤點

| 資料來源 | 類型 | 資料量 | 品質評估 | |---------|------|--------|---------| | ERP 訂單系統 | 結構化 | 50 萬筆/年 | 高(系統自動產生) | | 客服 Email | 非結構化 | 2 萬封/年 | 中(需人工分類) | | 社群留言 | 非結構化 | 10 萬則/年 | 低(充斥表情符號、錯字) | | Excel 銷售報表 | 半結構化 | 200 個檔案 | 低(格式不統一、多人編輯) | | CRM 客戶資料 | 結構化 | 3 萬筆 | 中(20% 電話/地址過期) | > **發現**:多數企業的結構化資料品質較好(系統自動產生),非結構化和半結構化資料需要大量清理才能用於 AI 訓練。

關鍵字自我檢核

✅ 資料vs資訊 ✅ 資料驅動 ✅ 數據思維