← M02 資料素養 M02 資料素養

M02.02|資料類型全覽:結構化、半結構化、非結構化

Excel 表格、JSON 檔案、一張照片 — AI 看待它們的方式完全不同

L1-AI基礎知識-資料類型與格式 L1-AI基礎知識-結構化與非結構化資料
結構化資料 半結構化 非結構化 資料類型
📋

本講學習重點

結構化資料長什麼樣?
非結構化資料怎麼處理?
半結構化是什麼意思?
哪種資料最難用?

有固定欄位和格式的表格資料,如SQL、Excel

需要先轉換成數值向量(embedding)才能給模型用

有結構但不是固定欄位,如JSON、XML、HTML

非結構化最難但佔企業資料80%以上

📌 三種資料類型各有處理方式,非結構化資料佔比最大但處理成本最高。
資料類型全覽:結構化、半結構化、非結構化

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

資料分三種:結構化(整齊的表格)、半結構化(有標記但不固定的 JSON/XML)、非結構化(圖片、影片、自然語言文字),AI 處理每種資料的方法完全不同。

白話解說

想像你在整理房間。衣櫃裡每件衣服都有固定的格子 — 上衣在第一層、褲子在第二層、襪子在抽屜裡。這就是結構化資料:每筆資料都有固定的欄位(姓名、年齡、地址),像 Excel 表格或資料庫裡的表。SQL 查詢一下就能找到你要的東西。

書架上的書有分類但每本厚薄不同、章節數不同 — 你知道它大概在哪一區,但每本書的內部結構都不一樣。這就是半結構化資料:像 JSON、XML、HTML。它有標記(tag)告訴你哪段是標題、哪段是內容,但每筆資料的欄位數量和深度可能不同。你家的購物網站每個商品頁面的 HTML 結構就是半結構化資料。

地板上散落一地的東西 — 照片、手寫筆記、錄音檔、隨手拍的影片。這就是非結構化資料:沒有固定格式、無法直接用表格存放。對人類來說看一眼就懂,但對電腦來說需要先「翻譯」成數字才能處理。

殘酷的現實是:企業 80% 以上的資料是非結構化的 — Email、會議記錄、客戶電話錄音、社群媒體貼文、合約 PDF。這些資料藏著巨大的價值,但以前的技術很難利用。深度學習和大型語言模型的突破,讓我們終於能大規模處理非結構化資料,這也是 AI 近年來爆發的關鍵原因之一。

AI 處理不同類型資料的方式差異很大:結構化資料可以直接餵進傳統機器學習模型(決策樹、隨機森林);非結構化資料需要先透過深度學習(CNN 處理圖片、Transformer 處理文字)轉換成向量(一串數字),才能進行後續分析。

應用場景

場景:一家保險公司的三種資料整合

一家台灣保險公司每天要處理上千件理賠案件,涉及三種資料類型:

資料類型 具體內容 處理方式
結構化 保單號碼、理賠金額、出險日期 直接查詢資料庫、統計分析
半結構化 醫院提供的電子病歷(HL7/FHIR 格式) 解析 XML 標記,擷取診斷碼和用藥清單
非結構化 現場照片、手寫收據、客戶電話錄音 OCR 辨識文字、語音轉文字、影像分析

過去他們只能用結構化資料做分析(哪些區域理賠率高、哪些險種賠最多)。導入 AI 後,他們開始能處理非結構化資料 — 用 OCR 自動辨識手寫收據上的金額和品項、用語音辨識分析客服通話找出常見抱怨、用影像辨識比對車禍現場照片估算損失。三種資料整合後,理賠審核效率提升 40%,詐騙偵測率也大幅提高。

常見誤區

  1. 「非結構化資料沒辦法分析,放著就好」 — 這在十年前是對的,現在不是了。NLP 可以分析客服對話、CV 可以分析產品照片、語音辨識可以轉錄會議記錄。企業最有價值的洞察,往往藏在非結構化資料裡。那些堆積如山的客戶回饋、業務週報、維修紀錄,都是尚未開採的金礦。

  2. 「把所有資料都丟進一個大表格就好」 — 強行把非結構化資料塞進表格,會丟失大量資訊。例如把一段客訴錄音只摘要成「不滿意」兩個字存進表格,你就損失了語氣、具體抱怨內容、上下文等關鍵資訊。正確做法是保留原始資料,在分析時用適合的 AI 模型來處理。

  3. 「JSON 就是非結構化資料」 — 常見的分類錯誤。JSON 有明確的 key-value 結構、可以被程式自動解析,它是半結構化資料。判斷標準是:機器能不能不透過 AI 就直接理解它的結構?JSON 可以,自然語言文字不行。

小練習

  1. 資料分類練習:判斷以下資料屬於哪種類型(結構化 / 半結構化 / 非結構化),並說明你的理由:
    • (a) 公司的員工名冊(Excel 格式)
    • (b) 客戶寄來的 Email
    • (c) 電商網站的商品 API(回傳 JSON)
    • (d) 工廠監視器的即時影像串流
    • (e) 台灣政府的公開資料 API(回傳 XML)
  2. 非結構化資料價值挖掘:選一種你公司擁有但目前沒在用的非結構化資料(例如客服錄音、合約 PDF、社群留言),想像如果用 AI 來分析它,可能挖出什麼有價值的洞察?需要什麼 AI 技術(NLP、CV、語音辨識)?
點擊查看參考答案

練習 1:資料類型分類

| 資料 | 類型 | 理由 | |------|------|------| | (a) 員工名冊 Excel | **結構化** | 固定欄位(姓名、工號、部門),每列格式相同 | | (b) 客戶 Email | **非結構化** | 自然語言文字,每封格式、長度、內容都不同 | | (c) 電商 JSON API | **半結構化** | 有 key-value 結構,但巢狀深度和欄位數可能不同 | | (d) 監視器影像 | **非結構化** | 連續影像串流,無固定格式,需 CV 模型處理 | | (e) 政府 XML API | **半結構化** | 有標記結構,可程式化解析,但欄位可能動態變化 | > **判斷訣竅**:能直接放進 SQL 表格的 → 結構化;有標記可解析但不是固定表格的 → 半結構化;需要 AI 才能「看懂」的 → 非結構化。

練習 2:客服錄音的價值挖掘範例

- **資料來源**:每月 5,000 通客服電話錄音 - **AI 技術**:語音辨識(ASR)→ 自然語言處理(NLP)→ 情緒分析 - **可挖掘的洞察**: 1. 客戶最常抱怨的前五大問題(自動分類) 2. 哪些時段客戶情緒最差(情緒分析 + 時間分析) 3. 哪位客服人員的解決率最高(績效評估) 4. 客戶流失的早期預警訊號(特定話術模式偵測) > **關鍵**:一通電話轉成文字後,就從「無法分析的非結構化資料」變成「可以用 NLP 處理的文字資料」。語音辨識是解鎖語音資料價值的第一步。

關鍵字自我檢核

✅ 結構化資料 ✅ 非結構化資料 ✅ 資料格式