← M02 資料素養 M02 資料素養

M02.07|資料標註:教 AI 什麼是對、什麼是錯

AI 不是自學成才 — 每一個正確答案的背後,都有人類老師在標記

L1-AI基礎知識-資料標註 L1-AI基礎知識-監督式學習基礎 L2-AI技術應用-標註工具與流程
資料標註 監督式學習 標註品質
📋

本講學習重點

為什麼需要標註?
標註有哪些方法?
標註品質怎麼控管?
標註成本有多高?

監督式學習需要正確答案(label)讓模型學習

人工標註、半自動(模型預標+人工修正)、群眾外包

多人重複標註取共識、標註指南、抽樣審查

醫療影像每張$1-5美元、自駕車影像每幀$6-10美元

📌 資料標註是監督式學習的基礎,品質控管和成本管理是兩大核心挑戰。
資料標註:教 AI 什麼是對、什麼是錯

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

資料標註就是人類告訴 AI「這張照片裡的是貓」「這封郵件是垃圾信」— 沒有這些正確答案當老師,監督式學習的 AI 什麼也學不會。

白話解說

想像你在教一個完全不懂中文的外國人認字。你拿出一張寫著「大」的卡片說「這是 dà」,拿出「小」說「這是 xiǎo」。教了幾百個字之後,他開始能自己認出新的字了。

AI 的監督式學習也是同樣的過程。你要先準備一大堆「附帶正確答案的資料」— 這些正確答案就叫做標註(Label / Annotation)。圖片分類需要標記「這是貓/狗/鳥」、情緒分析需要標記「這則留言是正面/負面/中性」、物件偵測需要在圖片上畫框標出「這裡有一個行人」。

標註的方法有三種層級:

純人工標註:最傳統也最可靠。找一群人坐在電腦前,一張一張看圖片、一句一句讀文本,然後標記正確答案。優點是品質最高(如果標註者受過訓練的話),缺點是非常慢、非常貴。

半自動標註:先用一個粗糙的模型自動預標註(pre-labeling),然後讓人類來修正錯誤的部分。比如模型先自動框出圖片裡的物件,人類只需要調整框的位置和修正標籤。這可以提升 3-5 倍的標註效率。

群眾外包(Crowdsourcing):透過平台(如 Amazon Mechanical Turk)把標註任務分發給全球的兼職人員。優點是速度快、成本低;缺點是品質參差不齊,需要設計嚴格的品質控管機制。

標註最大的挑戰不是速度,而是一致性。同一張模糊的照片,甲標為「貓」、乙標為「狗」、丙看不出來標為「其他」。如何確保不同標註者的判斷一致?業界的做法是:(1) 撰寫詳細的標註指南(Labeling Guide),用大量範例說明邊界案例該怎麼標;(2) 多人重複標註,每筆資料至少讓 3 個人標,取多數決;(3) 定期抽樣審查,專家隨機抽查標註品質。

應用場景

場景:一家台灣醫療 AI 新創的影像標註流程

這家公司要做肺部 X 光的 AI 輔助判讀。標註流程的挑戰:

環節 做法 原因
標註者 只能用放射科醫師,不能用一般人 醫療影像需要專業知識判讀
標註指南 50 頁指南含 200 張範例影像 病灶邊界模糊,需要大量範例定義標準
品質控管 每張影像由 3 位醫師獨立標註 醫師之間的判讀差異(inter-rater variability)可達 10-15%
共識機制 2/3 一致就採納,全部不一致就送主治醫師仲裁 減少主觀判斷的影響
成本 每張 X 光標註成本約 NT$150-300 醫師時間=高成本
規模 需要至少 50,000 張標註過的影像 模型才能學到足夠多的病灶模式

總標註成本:50,000 張 x NT$200 = NT$1,000 萬。這還不含醫師培訓、品質審查和重標的成本。這就是為什麼醫療 AI 的開發成本如此高昂。

常見誤區

  1. 「標註只要找便宜的工讀生就好」 — 取決於任務的專業度。分辨貓狗的標註確實不需要專家;但判斷 X 光裡有沒有腫瘤,你需要放射科醫師。台灣很多 AI 新創為了省成本用非專業人員標註醫療或法律資料,結果模型學到的是錯誤的標準。

  2. 「標註一次就永遠夠用」 — 標準會變。兩年前你的「客訴分類」只有 5 個類別,現在因為新產品線增加了 3 個類別,舊的標註就不完整了。資料的世界在變,標註也需要持續更新。

  3. 「大型語言模型(LLM)可以取代人工標註」 — LLM 確實可以協助標註(作為 pre-labeling 工具),但在高風險場景(醫療、金融、法律),LLM 的標註仍需要人類專家審核。GPT-4 自動標註的情緒分析準確率可能有 85%,但剩下 15% 的錯誤在金融合規場景可能造成嚴重後果。

小練習

  1. 標註指南設計:假設你要建一個 AI 模型來分類客戶留言為「正面」、「負面」、「中性」,請設計一份簡易的標註指南,至少包含:(a) 三個類別的定義、(b) 每個類別的兩個範例、(c) 兩個容易混淆的邊界案例及判斷標準。

  2. 標註成本估算:假設你要標註 10,000 張產品照片(分類為「合格」或「瑕疵」),每張標註需要 15 秒,時薪 NT$200。計算:(a) 需要多少人時?(b) 如果要求每張 3 人重複標註,總成本是多少?(c) 如果先用模型預標註可省 60% 的時間,成本變多少?

點擊查看參考答案

練習 1:情緒分類標註指南

**類別定義:** - **正面**:表達滿意、感謝、推薦意願的留言 - **負面**:表達不滿、抱怨、退貨意願的留言 - **中性**:純粹提問、陳述事實、無明顯情緒的留言 **範例:** | 類別 | 範例 | |------|------| | 正面 | 「出貨超快!隔天就到了,品質也很好」 | | 正面 | 「客服態度很好,問題馬上就解決了」 | | 負面 | 「等了兩週還沒到,到底在幹嘛」 | | 負面 | 「收到的顏色跟圖片完全不一樣,想退貨」 | | 中性 | 「請問這個有 L 號嗎?」 | | 中性 | 「已下單,等出貨通知」 | **邊界案例:** 1. 「還行吧」→ 標記為**中性**(語氣未明確表達滿意或不滿) 2. 「品質不錯但物流太慢」→ 標記為**負面**(同時有正面和負面時,以整體語氣判斷;若負面佔主導則標負面)

練習 2:標註成本估算

| 項目 | 計算 | 結果 | |------|------|------| | (a) 單人標註人時 | 10,000 張 × 15 秒 ÷ 3,600 | **41.7 人時** | | (b) 3 人重複總成本 | 41.7 × 3 × NT$200 | **NT$25,000** | | (c) 預標註省 60% | 25,000 × 40% | **NT$10,000** | > **重點**:預標註(pre-labeling)能大幅降低成本。但要注意:省下的是「標註時間」,品質審查的時間不能省。3 人重複標註的機制仍然需要保留。

關鍵字自我檢核

✅ 標註方法 ✅ 標註品質 ✅ 群眾外包 ✅ 主動學習