← M02 資料素養 M02 資料素養

M02.04｜資料蒐集：從哪裡來、怎麼取得、合法嗎

資料不是天上掉下來的 — 每一筆都有成本、來源和法律邊界

L1-AI基礎知識-資料蒐集方法 L1-AI基礎知識-開源資料集 L1-AI應用規劃-資料合規性

🇺🇸 DOL AI Literacy ⚖️ 負責任地使用 AI 🏢 情境嵌入式學習

📋

本講學習重點

資料有哪三大來源?

開源資料集怎麼找?

蒐集資料的法律紅線?

自己標註vs外包標註?

內部系統(ERP/CRM)、外部購買/合作、開源資料集

Kaggle、UCI、HuggingFace、政府公開資料平台

個資法同意權、著作權、競業限制、爬蟲合法性

內部品質高但慢，外包快但需品質控管

📌 資料蒐集要同時考慮來源、成本和合法性三個面向，走捷徑遲早出問題。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

AI 專案的資料來自三個地方：公司內部系統、外部購買或合作、以及公開的開源資料集 — 每一種都有各自的成本、品質和法律風險要考量。

白話解說

你要開一家滷肉飯店，食材從哪來？第一種是自己養豬種菜（內部資料）— 品質你最了解，但成本高、時間長。第二種是跟供應商買（外部資料）— 快速方便，但你得確認品質和來源合法。第三種是去市場撿免費的試吃品（開源資料集）— 不用錢，但量有限，可能不完全符合你的需求。

內部資料是最有價值的。你公司的 ERP 訂單紀錄、CRM 客戶互動、網站點擊流、客服通話記錄 — 這些都是只有你才有的獨家資料，也是你 AI 專案最大的競爭優勢。但很多企業的內部資料分散在不同系統裡（業務用 Salesforce、財務用 SAP、客服用 Zendesk），整合是一大工程。

外部資料可以透過購買、合作或 API 串接取得。例如天氣資料（中央氣象署 API）、人口統計（內政部公開資料）、市場趨勢（市調公司報告）。購買外部資料時要注意授權範圍 — 很多資料供應商只授權「分析用途」，不一定授權你拿來訓練 AI 模型。

開源資料集是免費的寶庫。Kaggle 上有上萬個資料集涵蓋各種領域、HuggingFace 有大量 NLP 資料集、台灣的政府資料開放平台有交通、氣象、人口等資料。但開源資料通常是英文為主，直接拿來用在台灣市場需要調整。

最容易踩雷的是法律邊界。台灣的《個人資料保護法》要求蒐集個資必須有「特定目的」和「當事人同意」。用爬蟲抓網站資料可能違反《著作權法》或網站的使用條款。2023 年 OpenAI 被多家媒體集體提告，就是因為未經授權使用他們的文章來訓練 GPT。

應用場景

場景：一家台灣新創要做餐廳評價分析 AI

這家新創想做一個 AI 工具，分析台灣餐廳的網路評價，幫店家了解客戶的正面和負面回饋。資料蒐集的三條路：

來源	做法	風險
內部	合作餐廳提供的直接客戶問卷回饋	量少但品質高、合法
外部	爬蟲抓 Google Maps 評論	量大但可能違反使用條款
開源	Yelp 公開的學術研究資料集（英文）	免費合法，但不是中文、不是台灣市場

正確策略：

先用 Yelp 開源資料集訓練基礎的情緒分析模型（合法、免費）
與 10 家合作餐廳簽約，取得他們 Google 商家的評論資料（經授權、合法）
在自家 App 上收集用戶主動留下的評價（第一方資料、最合法）
絕對不碰沒有授權的爬蟲抓取

常見誤區

「網路上公開的資料就可以自由使用」 — 「公開可見」不等於「可以自由使用」。Google 搜尋結果是公開的，但你不能爬整個 Google 來訓練模型。每個網站都有使用條款（Terms of Service），很多明確禁止自動化蒐集。公開資料仍然可能受著作權保護。
「我們只是做內部研究，不需要合規」 — 即使是內部研究，使用個資仍需遵守個資法。而且「內部研究」的邊界很模糊 — 如果研究成果後來變成產品，你當初的資料蒐集授權可能就不夠了。從一開始就做好合規，避免日後翻車。
「開源資料集品質都很好」 — 很多開源資料集有已知的偏誤問題。ImageNet（經典的影像辨識資料集）被發現對膚色較深的人臉辨識率較低；某些 NLP 資料集包含歧視性語言。使用開源資料集前，一定要了解它的來源、蒐集方式和已知的限制。

小練習

資料來源盤點：假設你要為公司建一個「客戶流失預測」的 AI 模型，列出你會從哪裡蒐集資料。分成內部來源（至少 3 個）和外部來源（至少 2 個），並評估每個來源的合法性風險。
授權條款閱讀：去 Kaggle（kaggle.com）找一個你感興趣的資料集，閱讀它的授權條款（License），回答：(a) 可以商業使用嗎？(b) 可以用來訓練 AI 模型嗎？(c) 有什麼限制？

點擊查看參考答案

練習 1：客戶流失預測資料來源

| 來源 | 類型 | 具體內容 | 合法性風險 | |------|------|---------|-----------| | CRM 系統 | 內部 | 客戶互動紀錄、聯繫頻率 | 低（公司自有資料） | | 交易系統 | 內部 | 購買頻率、金額、品項 | 低（營運資料） | | 客服系統 | 內部 | 投訴次數、問題類型 | 低（需注意通話錄音的同意權） | | 市調報告 | 外部 | 產業流失率基準 | 低（購買授權） | | 社群輿情 | 外部 | 品牌提及、情緒分析 | 中（需確認使用條款） | > **關鍵提醒**：即使是內部資料，如果包含個資（姓名、電話、Email），用於 AI 訓練前需確認是否在原始蒐集的「特定目的」範圍內。

練習 2：常見 Kaggle 授權類型

| 授權類型 | 商業使用 | AI 訓練 | 限制 | |---------|---------|---------|------| | CC0（公共領域） | ✅ | ✅ | 無限制 | | CC BY 4.0 | ✅ | ✅ | 需註明出處 | | CC BY-NC 4.0 | ❌ | ⚠️ 灰色地帶 | 非商業用途 | | GPL | ✅ | ✅ | 衍生作品需開源 | | 自定義 Competition | ❌ | ❌ | 僅限比賽用途 | > **常見陷阱**：Kaggle Competition 的資料集通常只授權在比賽期間使用，不能拿來訓練商業產品。使用前務必點開 License 頁面仔細閱讀。

關鍵字自我檢核

✅ 內部資料 ✅ 外部資料 ✅ 開源資料集 ✅ 資料授權