M02.01|資料的本質:什麼是資料,為什麼 AI 離不開它
沒有資料的 AI 就像沒有食材的廚師 — 再厲害也煮不出菜
本講學習重點
資料是原始事實(數字/文字/圖片),資訊是有意義的解讀,知識是可行動的判斷
AI透過大量資料學習模式,資料越多越多元,模型越準
規則驅動靠人寫邏輯,資料驅動靠機器從資料中學
沒有固定答案,取決於問題複雜度、資料品質和模型類型
🎙️ Podcast(中文)
一句話搞懂
資料是 AI 的原料 — 就像廚師需要食材才能做菜,AI 需要大量資料才能學會辨識模式和做預測。
白話解說
你去看醫生,醫生問你「哪裡不舒服」、量體溫、看驗血報告。體溫 38.5°C 是資料(Data)— 一個原始的數字。醫生結合症狀判斷「你可能在發燒」— 這是資訊(Information)。醫生根據經驗說「吃這個藥、多喝水、明天再來複診」— 這是知識(Knowledge)。
AI 的學習過程也走這條路:先餵大量原始資料(幾萬張貓狗照片),然後透過演算法從資料中萃取資訊(貓有尖耳朵、狗鼻子比較長),最後把這些資訊內化成知識(可以判斷新照片是貓還是狗的模型)。
這就引出一個關鍵概念:資料驅動 vs 規則驅動。傳統程式是「規則驅動」— 工程師寫 if-else 規則告訴程式該怎麼做。AI 是「資料驅動」— 你給它大量範例,讓它自己從資料中學出規則。
舉個簡單例子:你要寫一個分辨垃圾郵件的程式。規則驅動的做法是列出一堆關鍵字(「中獎」、「免費」、「限時」),碰到就標記為垃圾。資料驅動的做法是丟十萬封已標記好的郵件給 AI,讓它自己學出什麼樣的郵件是垃圾。後者的好處是,當垃圾郵件換了新花招,AI 只要用新資料重新訓練就能跟上,不需要工程師手動更新規則。
但這也意味著一個殘酷的事實:AI 的天花板取決於資料的品質和數量。再強的演算法,碰到爛資料也是白搭。這就是「垃圾進,垃圾出」(Garbage In, Garbage Out)的核心精神,也是我們後面會深入討論的主題。
應用場景
場景:一家連鎖超市的資料驅動轉型
台灣一家擁有 200 家門市的連鎖超市,過去都是靠店長的經驗來決定「明天要進多少顆高麗菜」。這是規則驅動 — 規則就是店長腦袋裡的經驗法則。
轉型成資料驅動後,他們開始蒐集:
- 交易資料:每天每個品項賣了多少(POS 系統)
- 外部資料:天氣預報、節假日、促銷活動
- 歷史趨勢:過去三年同期的銷售量
把這些資料整合後,AI 可以預測「下週三台北門市的高麗菜需求量是 150 顆,比平常多 20%,因為天氣轉涼火鍋需求上升」。
結果:生鮮報廢率從 8% 降到 3%,相當於每年省下數百萬。這就是從「經驗驅動」到「資料驅動」的具體價值。
常見誤區
-
「資料越多越好」 — 資料量大是好事,但品質更重要。如果你蒐集了一百萬筆客戶資料,其中 30% 是重複的、20% 是錯誤的,那有效資料其實只有五十萬筆。更糟的是,髒資料會讓模型學到錯誤的模式。質量要並重,不能只追求數量。
-
「有了 AI 就不需要人來看資料了」 — AI 是從資料中學模式,但它不知道那些模式是否合理。例如一個銷售預測模型發現「氣溫越高冰淇淋賣越多」這很合理;但如果它發現「店員叫小美的門市業績特別好」,這只是巧合不是因果。人類仍需要用領域知識來判斷 AI 發現的模式是否有意義。
-
「資料就是數字」 — 資料不只是 Excel 裡的數字。圖片是資料(像素矩陣)、語音是資料(聲波波形)、文字是資料(字元序列)、甚至你的滑鼠移動軌跡也是資料。AI 時代的「資料」定義遠比傳統的報表數據寬廣得多。
小練習
-
DIKW 金字塔練習:從你的日常工作中,找出一個具體的例子,分別填入:原始資料(Data)是什麼、整理後的資訊(Information)是什麼、可以行動的知識(Knowledge)是什麼、最終的智慧(Wisdom)決策又是什麼。
-
資料盤點:列出你部門目前擁有的五種資料來源(例如 CRM 系統、Excel 報表、Email 紀錄等),然後評估每一種:(a) 是結構化還是非結構化?(b) 資料量大約多少?(c) 品質如何(完整度、正確性)?