← M02 資料素養 M02 資料素養

M02.04|資料蒐集:從哪裡來、怎麼取得、合法嗎

資料不是天上掉下來的 — 每一筆都有成本、來源和法律邊界

L1-AI基礎知識-資料蒐集方法 L1-AI基礎知識-開源資料集 L1-AI應用規劃-資料合規性
資料蒐集 資料來源 合法性
📋

本講學習重點

資料有哪三大來源?
開源資料集怎麼找?
蒐集資料的法律紅線?
自己標註vs外包標註?

內部系統(ERP/CRM)、外部購買/合作、開源資料集

Kaggle、UCI、HuggingFace、政府公開資料平台

個資法同意權、著作權、競業限制、爬蟲合法性

內部品質高但慢,外包快但需品質控管

📌 資料蒐集要同時考慮來源、成本和合法性三個面向,走捷徑遲早出問題。
資料蒐集:從哪裡來、怎麼取得、合法嗎

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

AI 專案的資料來自三個地方:公司內部系統、外部購買或合作、以及公開的開源資料集 — 每一種都有各自的成本、品質和法律風險要考量。

白話解說

你要開一家滷肉飯店,食材從哪來?第一種是自己養豬種菜(內部資料)— 品質你最了解,但成本高、時間長。第二種是跟供應商買(外部資料)— 快速方便,但你得確認品質和來源合法。第三種是去市場撿免費的試吃品(開源資料集)— 不用錢,但量有限,可能不完全符合你的需求。

內部資料是最有價值的。你公司的 ERP 訂單紀錄、CRM 客戶互動、網站點擊流、客服通話記錄 — 這些都是只有你才有的獨家資料,也是你 AI 專案最大的競爭優勢。但很多企業的內部資料分散在不同系統裡(業務用 Salesforce、財務用 SAP、客服用 Zendesk),整合是一大工程。

外部資料可以透過購買、合作或 API 串接取得。例如天氣資料(中央氣象署 API)、人口統計(內政部公開資料)、市場趨勢(市調公司報告)。購買外部資料時要注意授權範圍 — 很多資料供應商只授權「分析用途」,不一定授權你拿來訓練 AI 模型。

開源資料集是免費的寶庫。Kaggle 上有上萬個資料集涵蓋各種領域、HuggingFace 有大量 NLP 資料集、台灣的政府資料開放平台有交通、氣象、人口等資料。但開源資料通常是英文為主,直接拿來用在台灣市場需要調整。

最容易踩雷的是法律邊界。台灣的《個人資料保護法》要求蒐集個資必須有「特定目的」和「當事人同意」。用爬蟲抓網站資料可能違反《著作權法》或網站的使用條款。2023 年 OpenAI 被多家媒體集體提告,就是因為未經授權使用他們的文章來訓練 GPT。

應用場景

場景:一家台灣新創要做餐廳評價分析 AI

這家新創想做一個 AI 工具,分析台灣餐廳的網路評價,幫店家了解客戶的正面和負面回饋。資料蒐集的三條路:

來源 做法 風險
內部 合作餐廳提供的直接客戶問卷回饋 量少但品質高、合法
外部 爬蟲抓 Google Maps 評論 量大但可能違反使用條款
開源 Yelp 公開的學術研究資料集(英文) 免費合法,但不是中文、不是台灣市場

正確策略:

  1. 先用 Yelp 開源資料集訓練基礎的情緒分析模型(合法、免費)
  2. 與 10 家合作餐廳簽約,取得他們 Google 商家的評論資料(經授權、合法)
  3. 在自家 App 上收集用戶主動留下的評價(第一方資料、最合法)
  4. 絕對不碰沒有授權的爬蟲抓取

常見誤區

  1. 「網路上公開的資料就可以自由使用」 — 「公開可見」不等於「可以自由使用」。Google 搜尋結果是公開的,但你不能爬整個 Google 來訓練模型。每個網站都有使用條款(Terms of Service),很多明確禁止自動化蒐集。公開資料仍然可能受著作權保護。

  2. 「我們只是做內部研究,不需要合規」 — 即使是內部研究,使用個資仍需遵守個資法。而且「內部研究」的邊界很模糊 — 如果研究成果後來變成產品,你當初的資料蒐集授權可能就不夠了。從一開始就做好合規,避免日後翻車。

  3. 「開源資料集品質都很好」 — 很多開源資料集有已知的偏誤問題。ImageNet(經典的影像辨識資料集)被發現對膚色較深的人臉辨識率較低;某些 NLP 資料集包含歧視性語言。使用開源資料集前,一定要了解它的來源、蒐集方式和已知的限制。

小練習

  1. 資料來源盤點:假設你要為公司建一個「客戶流失預測」的 AI 模型,列出你會從哪裡蒐集資料。分成內部來源(至少 3 個)和外部來源(至少 2 個),並評估每個來源的合法性風險。

  2. 授權條款閱讀:去 Kaggle(kaggle.com)找一個你感興趣的資料集,閱讀它的授權條款(License),回答:(a) 可以商業使用嗎?(b) 可以用來訓練 AI 模型嗎?(c) 有什麼限制?

點擊查看參考答案

練習 1:客戶流失預測資料來源

| 來源 | 類型 | 具體內容 | 合法性風險 | |------|------|---------|-----------| | CRM 系統 | 內部 | 客戶互動紀錄、聯繫頻率 | 低(公司自有資料) | | 交易系統 | 內部 | 購買頻率、金額、品項 | 低(營運資料) | | 客服系統 | 內部 | 投訴次數、問題類型 | 低(需注意通話錄音的同意權) | | 市調報告 | 外部 | 產業流失率基準 | 低(購買授權) | | 社群輿情 | 外部 | 品牌提及、情緒分析 | 中(需確認使用條款) | > **關鍵提醒**:即使是內部資料,如果包含個資(姓名、電話、Email),用於 AI 訓練前需確認是否在原始蒐集的「特定目的」範圍內。

練習 2:常見 Kaggle 授權類型

| 授權類型 | 商業使用 | AI 訓練 | 限制 | |---------|---------|---------|------| | CC0(公共領域) | ✅ | ✅ | 無限制 | | CC BY 4.0 | ✅ | ✅ | 需註明出處 | | CC BY-NC 4.0 | ❌ | ⚠️ 灰色地帶 | 非商業用途 | | GPL | ✅ | ✅ | 衍生作品需開源 | | 自定義 Competition | ❌ | ❌ | 僅限比賽用途 | > **常見陷阱**:Kaggle Competition 的資料集通常只授權在比賽期間使用,不能拿來訓練商業產品。使用前務必點開 License 頁面仔細閱讀。

關鍵字自我檢核

✅ 內部資料 ✅ 外部資料 ✅ 開源資料集 ✅ 資料授權