M02.02|資料類型全覽:結構化、半結構化、非結構化
Excel 表格、JSON 檔案、一張照片 — AI 看待它們的方式完全不同
本講學習重點
有固定欄位和格式的表格資料,如SQL、Excel
需要先轉換成數值向量(embedding)才能給模型用
有結構但不是固定欄位,如JSON、XML、HTML
非結構化最難但佔企業資料80%以上
🎙️ Podcast(中文)
一句話搞懂
資料分三種:結構化(整齊的表格)、半結構化(有標記但不固定的 JSON/XML)、非結構化(圖片、影片、自然語言文字),AI 處理每種資料的方法完全不同。
白話解說
想像你在整理房間。衣櫃裡每件衣服都有固定的格子 — 上衣在第一層、褲子在第二層、襪子在抽屜裡。這就是結構化資料:每筆資料都有固定的欄位(姓名、年齡、地址),像 Excel 表格或資料庫裡的表。SQL 查詢一下就能找到你要的東西。
書架上的書有分類但每本厚薄不同、章節數不同 — 你知道它大概在哪一區,但每本書的內部結構都不一樣。這就是半結構化資料:像 JSON、XML、HTML。它有標記(tag)告訴你哪段是標題、哪段是內容,但每筆資料的欄位數量和深度可能不同。你家的購物網站每個商品頁面的 HTML 結構就是半結構化資料。
地板上散落一地的東西 — 照片、手寫筆記、錄音檔、隨手拍的影片。這就是非結構化資料:沒有固定格式、無法直接用表格存放。對人類來說看一眼就懂,但對電腦來說需要先「翻譯」成數字才能處理。
殘酷的現實是:企業 80% 以上的資料是非結構化的 — Email、會議記錄、客戶電話錄音、社群媒體貼文、合約 PDF。這些資料藏著巨大的價值,但以前的技術很難利用。深度學習和大型語言模型的突破,讓我們終於能大規模處理非結構化資料,這也是 AI 近年來爆發的關鍵原因之一。
AI 處理不同類型資料的方式差異很大:結構化資料可以直接餵進傳統機器學習模型(決策樹、隨機森林);非結構化資料需要先透過深度學習(CNN 處理圖片、Transformer 處理文字)轉換成向量(一串數字),才能進行後續分析。
應用場景
場景:一家保險公司的三種資料整合
一家台灣保險公司每天要處理上千件理賠案件,涉及三種資料類型:
| 資料類型 | 具體內容 | 處理方式 |
|---|---|---|
| 結構化 | 保單號碼、理賠金額、出險日期 | 直接查詢資料庫、統計分析 |
| 半結構化 | 醫院提供的電子病歷(HL7/FHIR 格式) | 解析 XML 標記,擷取診斷碼和用藥清單 |
| 非結構化 | 現場照片、手寫收據、客戶電話錄音 | OCR 辨識文字、語音轉文字、影像分析 |
過去他們只能用結構化資料做分析(哪些區域理賠率高、哪些險種賠最多)。導入 AI 後,他們開始能處理非結構化資料 — 用 OCR 自動辨識手寫收據上的金額和品項、用語音辨識分析客服通話找出常見抱怨、用影像辨識比對車禍現場照片估算損失。三種資料整合後,理賠審核效率提升 40%,詐騙偵測率也大幅提高。
常見誤區
-
「非結構化資料沒辦法分析,放著就好」 — 這在十年前是對的,現在不是了。NLP 可以分析客服對話、CV 可以分析產品照片、語音辨識可以轉錄會議記錄。企業最有價值的洞察,往往藏在非結構化資料裡。那些堆積如山的客戶回饋、業務週報、維修紀錄,都是尚未開採的金礦。
-
「把所有資料都丟進一個大表格就好」 — 強行把非結構化資料塞進表格,會丟失大量資訊。例如把一段客訴錄音只摘要成「不滿意」兩個字存進表格,你就損失了語氣、具體抱怨內容、上下文等關鍵資訊。正確做法是保留原始資料,在分析時用適合的 AI 模型來處理。
-
「JSON 就是非結構化資料」 — 常見的分類錯誤。JSON 有明確的 key-value 結構、可以被程式自動解析,它是半結構化資料。判斷標準是:機器能不能不透過 AI 就直接理解它的結構?JSON 可以,自然語言文字不行。
小練習
- 資料分類練習:判斷以下資料屬於哪種類型(結構化 / 半結構化 / 非結構化),並說明你的理由:
- (a) 公司的員工名冊(Excel 格式)
- (b) 客戶寄來的 Email
- (c) 電商網站的商品 API(回傳 JSON)
- (d) 工廠監視器的即時影像串流
- (e) 台灣政府的公開資料 API(回傳 XML)
- 非結構化資料價值挖掘:選一種你公司擁有但目前沒在用的非結構化資料(例如客服錄音、合約 PDF、社群留言),想像如果用 AI 來分析它,可能挖出什麼有價值的洞察?需要什麼 AI 技術(NLP、CV、語音辨識)?