← M02 資料素養 M02 資料素養

M02.02｜資料類型全覽：結構化、半結構化、非結構化

Excel 表格、JSON 檔案、一張照片 — AI 看待它們的方式完全不同

L1-AI基礎知識-資料類型與格式 L1-AI基礎知識-結構化與非結構化資料

🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 🏢 情境嵌入式學習

📋

本講學習重點

結構化資料長什麼樣?

非結構化資料怎麼處理?

半結構化是什麼意思?

哪種資料最難用?

有固定欄位和格式的表格資料，如SQL、Excel

需要先轉換成數值向量(embedding)才能給模型用

有結構但不是固定欄位，如JSON、XML、HTML

非結構化最難但佔企業資料80%以上

📌 三種資料類型各有處理方式，非結構化資料佔比最大但處理成本最高。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

資料分三種：結構化（整齊的表格）、半結構化（有標記但不固定的 JSON/XML）、非結構化（圖片、影片、自然語言文字），AI 處理每種資料的方法完全不同。

白話解說

想像你在整理房間。衣櫃裡每件衣服都有固定的格子 — 上衣在第一層、褲子在第二層、襪子在抽屜裡。這就是結構化資料：每筆資料都有固定的欄位（姓名、年齡、地址），像 Excel 表格或資料庫裡的表。SQL 查詢一下就能找到你要的東西。

書架上的書有分類但每本厚薄不同、章節數不同 — 你知道它大概在哪一區，但每本書的內部結構都不一樣。這就是半結構化資料：像 JSON、XML、HTML。它有標記（tag）告訴你哪段是標題、哪段是內容，但每筆資料的欄位數量和深度可能不同。你家的購物網站每個商品頁面的 HTML 結構就是半結構化資料。

地板上散落一地的東西 — 照片、手寫筆記、錄音檔、隨手拍的影片。這就是非結構化資料：沒有固定格式、無法直接用表格存放。對人類來說看一眼就懂，但對電腦來說需要先「翻譯」成數字才能處理。

殘酷的現實是：企業 80% 以上的資料是非結構化的 — Email、會議記錄、客戶電話錄音、社群媒體貼文、合約 PDF。這些資料藏著巨大的價值，但以前的技術很難利用。深度學習和大型語言模型的突破，讓我們終於能大規模處理非結構化資料，這也是 AI 近年來爆發的關鍵原因之一。

AI 處理不同類型資料的方式差異很大：結構化資料可以直接餵進傳統機器學習模型（決策樹、隨機森林）；非結構化資料需要先透過深度學習（CNN 處理圖片、Transformer 處理文字）轉換成向量（一串數字），才能進行後續分析。

應用場景

場景：一家保險公司的三種資料整合

一家台灣保險公司每天要處理上千件理賠案件，涉及三種資料類型：

資料類型	具體內容	處理方式
結構化	保單號碼、理賠金額、出險日期	直接查詢資料庫、統計分析
半結構化	醫院提供的電子病歷（HL7/FHIR 格式）	解析 XML 標記，擷取診斷碼和用藥清單
非結構化	現場照片、手寫收據、客戶電話錄音	OCR 辨識文字、語音轉文字、影像分析

過去他們只能用結構化資料做分析（哪些區域理賠率高、哪些險種賠最多）。導入 AI 後，他們開始能處理非結構化資料 — 用 OCR 自動辨識手寫收據上的金額和品項、用語音辨識分析客服通話找出常見抱怨、用影像辨識比對車禍現場照片估算損失。三種資料整合後，理賠審核效率提升 40%，詐騙偵測率也大幅提高。

常見誤區

「非結構化資料沒辦法分析，放著就好」 — 這在十年前是對的，現在不是了。NLP 可以分析客服對話、CV 可以分析產品照片、語音辨識可以轉錄會議記錄。企業最有價值的洞察，往往藏在非結構化資料裡。那些堆積如山的客戶回饋、業務週報、維修紀錄，都是尚未開採的金礦。
「把所有資料都丟進一個大表格就好」 — 強行把非結構化資料塞進表格，會丟失大量資訊。例如把一段客訴錄音只摘要成「不滿意」兩個字存進表格，你就損失了語氣、具體抱怨內容、上下文等關鍵資訊。正確做法是保留原始資料，在分析時用適合的 AI 模型來處理。
「JSON 就是非結構化資料」 — 常見的分類錯誤。JSON 有明確的 key-value 結構、可以被程式自動解析，它是半結構化資料。判斷標準是：機器能不能不透過 AI 就直接理解它的結構？JSON 可以，自然語言文字不行。

小練習

資料分類練習：判斷以下資料屬於哪種類型（結構化 / 半結構化 / 非結構化），並說明你的理由：
- (a) 公司的員工名冊（Excel 格式）
- (b) 客戶寄來的 Email
- (c) 電商網站的商品 API（回傳 JSON）
- (d) 工廠監視器的即時影像串流
- (e) 台灣政府的公開資料 API（回傳 XML）
非結構化資料價值挖掘：選一種你公司擁有但目前沒在用的非結構化資料（例如客服錄音、合約 PDF、社群留言），想像如果用 AI 來分析它，可能挖出什麼有價值的洞察？需要什麼 AI 技術（NLP、CV、語音辨識）？

點擊查看參考答案

練習 1：資料類型分類

| 資料 | 類型 | 理由 | |------|------|------| | (a) 員工名冊 Excel | **結構化** | 固定欄位（姓名、工號、部門），每列格式相同 | | (b) 客戶 Email | **非結構化** | 自然語言文字，每封格式、長度、內容都不同 | | (c) 電商 JSON API | **半結構化** | 有 key-value 結構，但巢狀深度和欄位數可能不同 | | (d) 監視器影像 | **非結構化** | 連續影像串流，無固定格式，需 CV 模型處理 | | (e) 政府 XML API | **半結構化** | 有標記結構，可程式化解析，但欄位可能動態變化 | > **判斷訣竅**：能直接放進 SQL 表格的 → 結構化；有標記可解析但不是固定表格的 → 半結構化；需要 AI 才能「看懂」的 → 非結構化。

練習 2：客服錄音的價值挖掘範例

- **資料來源**：每月 5,000 通客服電話錄音 - **AI 技術**：語音辨識（ASR）→ 自然語言處理（NLP）→ 情緒分析 - **可挖掘的洞察**： 1. 客戶最常抱怨的前五大問題（自動分類） 2. 哪些時段客戶情緒最差（情緒分析 + 時間分析） 3. 哪位客服人員的解決率最高（績效評估） 4. 客戶流失的早期預警訊號（特定話術模式偵測） > **關鍵**：一通電話轉成文字後，就從「無法分析的非結構化資料」變成「可以用 NLP 處理的文字資料」。語音辨識是解鎖語音資料價值的第一步。

關鍵字自我檢核

✅ 結構化資料 ✅ 非結構化資料 ✅ 資料格式