M02.04|資料蒐集:從哪裡來、怎麼取得、合法嗎
資料不是天上掉下來的 — 每一筆都有成本、來源和法律邊界
本講學習重點
內部系統(ERP/CRM)、外部購買/合作、開源資料集
Kaggle、UCI、HuggingFace、政府公開資料平台
個資法同意權、著作權、競業限制、爬蟲合法性
內部品質高但慢,外包快但需品質控管
🎙️ Podcast(中文)
一句話搞懂
AI 專案的資料來自三個地方:公司內部系統、外部購買或合作、以及公開的開源資料集 — 每一種都有各自的成本、品質和法律風險要考量。
白話解說
你要開一家滷肉飯店,食材從哪來?第一種是自己養豬種菜(內部資料)— 品質你最了解,但成本高、時間長。第二種是跟供應商買(外部資料)— 快速方便,但你得確認品質和來源合法。第三種是去市場撿免費的試吃品(開源資料集)— 不用錢,但量有限,可能不完全符合你的需求。
內部資料是最有價值的。你公司的 ERP 訂單紀錄、CRM 客戶互動、網站點擊流、客服通話記錄 — 這些都是只有你才有的獨家資料,也是你 AI 專案最大的競爭優勢。但很多企業的內部資料分散在不同系統裡(業務用 Salesforce、財務用 SAP、客服用 Zendesk),整合是一大工程。
外部資料可以透過購買、合作或 API 串接取得。例如天氣資料(中央氣象署 API)、人口統計(內政部公開資料)、市場趨勢(市調公司報告)。購買外部資料時要注意授權範圍 — 很多資料供應商只授權「分析用途」,不一定授權你拿來訓練 AI 模型。
開源資料集是免費的寶庫。Kaggle 上有上萬個資料集涵蓋各種領域、HuggingFace 有大量 NLP 資料集、台灣的政府資料開放平台有交通、氣象、人口等資料。但開源資料通常是英文為主,直接拿來用在台灣市場需要調整。
最容易踩雷的是法律邊界。台灣的《個人資料保護法》要求蒐集個資必須有「特定目的」和「當事人同意」。用爬蟲抓網站資料可能違反《著作權法》或網站的使用條款。2023 年 OpenAI 被多家媒體集體提告,就是因為未經授權使用他們的文章來訓練 GPT。
應用場景
場景:一家台灣新創要做餐廳評價分析 AI
這家新創想做一個 AI 工具,分析台灣餐廳的網路評價,幫店家了解客戶的正面和負面回饋。資料蒐集的三條路:
| 來源 | 做法 | 風險 |
|---|---|---|
| 內部 | 合作餐廳提供的直接客戶問卷回饋 | 量少但品質高、合法 |
| 外部 | 爬蟲抓 Google Maps 評論 | 量大但可能違反使用條款 |
| 開源 | Yelp 公開的學術研究資料集(英文) | 免費合法,但不是中文、不是台灣市場 |
正確策略:
- 先用 Yelp 開源資料集訓練基礎的情緒分析模型(合法、免費)
- 與 10 家合作餐廳簽約,取得他們 Google 商家的評論資料(經授權、合法)
- 在自家 App 上收集用戶主動留下的評價(第一方資料、最合法)
- 絕對不碰沒有授權的爬蟲抓取
常見誤區
-
「網路上公開的資料就可以自由使用」 — 「公開可見」不等於「可以自由使用」。Google 搜尋結果是公開的,但你不能爬整個 Google 來訓練模型。每個網站都有使用條款(Terms of Service),很多明確禁止自動化蒐集。公開資料仍然可能受著作權保護。
-
「我們只是做內部研究,不需要合規」 — 即使是內部研究,使用個資仍需遵守個資法。而且「內部研究」的邊界很模糊 — 如果研究成果後來變成產品,你當初的資料蒐集授權可能就不夠了。從一開始就做好合規,避免日後翻車。
-
「開源資料集品質都很好」 — 很多開源資料集有已知的偏誤問題。ImageNet(經典的影像辨識資料集)被發現對膚色較深的人臉辨識率較低;某些 NLP 資料集包含歧視性語言。使用開源資料集前,一定要了解它的來源、蒐集方式和已知的限制。
小練習
-
資料來源盤點:假設你要為公司建一個「客戶流失預測」的 AI 模型,列出你會從哪裡蒐集資料。分成內部來源(至少 3 個)和外部來源(至少 2 個),並評估每個來源的合法性風險。
-
授權條款閱讀:去 Kaggle(kaggle.com)找一個你感興趣的資料集,閱讀它的授權條款(License),回答:(a) 可以商業使用嗎?(b) 可以用來訓練 AI 模型嗎?(c) 有什麼限制?