← M08 大數據分析 M08 大數據分析

M08.03｜相關性 vs 因果性：AI 最容易搞混的關係

冰淇淋銷量和溺水人數高度相關 — 但吃冰淇淋不會讓人溺水

L1-AI基礎知識-相關與因果 L1-AI基礎知識-統計謬誤

🇺🇸 DOL AI Literacy 🔎 評估 AI 產出 💡 培養互補的人類技能

📋

本講學習重點

相關係數的數值如何解讀強弱？

什麼是混淆變數？如何識別？

為何 AI 模型學到的都是相關性而非因果性？

辛普森悖論說明了什麼問題？

要建立因果關係，最嚴謹的方法是什麼？

相關係數（Pearson r）：+1 完全正相關，-1 完全負相關，0 無線性相關；|r|>0.7 為強相關

相關不代表因果：冰淇淋 vs 溺水（共同原因：夏天氣溫），鞋子尺寸 vs 薪資（共同原因：年齡/工作經驗）

混淆變數（Confounder）：同時影響自變數和因變數的第三個變數，造成虛假相關

辛普森悖論：分組統計結論和合併統計結論相反（如腎結石治療成功率案例）

因果推論方法：隨機對照試驗（RCT，黃金標準）、工具變數法、斷點回歸、差異中差異法

AI/ML 模型的本質是學習統計相關性，不能自動推斷因果方向

Judea Pearl 的因果階層：關聯（看）→ 干預（做）→ 反事實（想像）

📌 相關性（Correlation）描述兩個變數共同變動的強弱和方向，因果性（Causality）描述一個變數是否真正導致另一個的變化。相關不等於因果，混淆變數是造成虛假相關的最常見原因。現有的機器學習模型本質上學習的是統計相關性，容易把巧合當規律。建立因果關係需要受控實驗（RCT）或嚴謹的因果推論方法。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

相關性說的是「兩件事同時發生的頻率」，因果性說的是「A 發生導致 B 發生」——冰淇淋銷量和溺水人數在夏天都會上升，兩者高度相關，但冰淇淋沒有讓人溺水，因為背後有一個共同原因叫做「炎熱天氣」；搞不清楚這個區別，AI 系統做的建議就可能從「相關的」變成「危險的」。

白話解說

相關係數：用一個數字描述「同進退」程度

相關性（Correlation）描述的是兩個數值變數之間共同變動的強弱和方向。最常用的量化工具是皮爾森相關係數（Pearson’s r），數值範圍從 -1 到 +1：+1 表示完全正相關（一個增加，另一個等比例增加）；-1 表示完全負相關（一個增加，另一個等比例減少）；0 表示沒有線性關係。

解讀相關係數強弱的常用標準：

在 0.8–1.0 為非常強相關，0.6–0.8 為強相關，0.4–0.6 為中等相關，0.2–0.4 為弱相關，0–0.2 幾乎無關。但這些範圍只是參考——在物理學中，相關係數低於 0.99 可能就不夠好；在社會科學或醫學中，相關係數 0.3 可能已經是很有意義的發現，因為人類行為本來就難以精確預測。

皮爾森相關係數假設兩個變數都接近常態分佈，且只能捕捉線性關係。若資料是非線性的（例如二次曲線關係），或含有大量離群值，更適合用斯皮爾曼等級相關係數（Spearman’s ρ）——它計算的是兩個變數排名之間的相關，對非線性關係和離群值更穩健。

相關不等於因果：三種混淆情況

「相關不等於因果」是統計學最重要的箴言之一，但這個道理說起來容易，在實際分析中卻一再被違反。混淆的情況主要有三種：

第一種：共同原因（Common Cause，又稱「混淆變數」）：冰淇淋銷量和溺水人數都與「氣溫」正相關——氣溫高，冰淇淋買得多，同時去游泳的人也多，溺水事故也就多。冰淇淋和溺水之間看起來相關，但真正的原因是氣溫，氣溫是這裡的混淆變數（Confounding Variable）或混淆因子。另一個經典例子：研究發現鞋子尺寸越大，薪資越高（正相關）——但背後原因是「年齡」，年齡大的人腳通常更大，同時因為工作經驗更豐富而薪資更高；鞋子和薪資之間並沒有直接的因果關係。

第二種：反向因果（Reverse Causality）：研究發現，醫院病床數量和死亡人數正相關——病床越多的醫院，死亡人數越多。這個相關是真實的，但因果方向反了：不是「病床多導致死亡多」，而是「更多重症患者聚集到有更多病床的大型醫院，導致大醫院死亡人數更高」。在 AI 模型中，反向因果會讓模型學到看似有意義但實際上方向錯誤的「規律」。

第三種：純粹的巧合（Spurious Correlation，虛假相關）：美國研究員 Tyler Vigen 建立了一個「虛假相關」資料庫，發現一些統計上高度相關但毫無因果關係的組合，例如：美國緬因州的離婚率和美國人均人造奶油消費量的相關係數高達 0.99（1999–2009 年資料）；尼可拉斯·凱吉電影每年的出演數量和游泳池溺水人數高度正相關。這些「相關」只是在特定時間段內的數字巧合，換一段時間就消失了。在大數據時代，當你有數千個變數時，純粹靠搜尋一定能找到許多「相關的」組合，但其中大多數是毫無意義的巧合。

辛普森悖論：聚合資料如何誤導你

辛普森悖論（Simpson’s Paradox）是統計中最令人驚訝的現象之一：分組看的趨勢，和把所有數據合在一起看的趨勢，可能完全相反。

最著名的真實案例是 1970 年代加州大學伯克利分校的招生性別歧視爭議。研究者發現，在合併資料中，男性申請者的錄取率（44%）明顯高於女性（35%），看起來存在性別歧視。但當依照各系所分拆分析後，幾乎每個系所女性的錄取率都和男性差不多，甚至更高。矛盾如何解釋？因為女性更傾向於申請競爭激烈、錄取率低的系所（如法律、醫學），而男性更傾向於申請錄取率高的系所——「申請的系所」是這裡的混淆變數，導致了合併後的假象。

另一個醫學案例：比較兩種腎結石治療方法 A 和 B 的成功率——合併所有病例，方法 B 的總成功率（83%）高於方法 A（78%）；但分開來看，對小型腎結石，方法 A 的成功率（93%）高於方法 B（87%）；對大型腎結石，方法 A 的成功率（73%）也高於方法 B（69%）。方法 A 在每個亞組都更好，但合計起來卻看似更差——因為方法 A 被更多用於更難處理的大型腎結石案例（樣本選擇的混淆）。辛普森悖論告訴我們：在做決策之前，必須思考是否存在關鍵的分群變數，合併統計可能掩蓋完全相反的實際情況。

為什麼 AI 模型容易混淆相關和因果

目前絕大多數的機器學習模型，從線性迴歸到深度神經網路，本質上都是在學習輸入變數和輸出變數之間的統計相關性，而不是學習因果機制。這帶來了幾個重要的限制：

脆弱性（Brittleness）：如果模型學到的是相關性而非因果，當環境改變時（原本的相關性消失或反轉），模型就會失效。例如，電商推薦系統學到「買尿布的用戶同時也買啤酒」（著名的啤酒尿布案例，因為年輕父親常一起買），但如果促銷改變了這個購買模式，相關性就消失了。

無法支持干預（Intervention）：知道「下雨天外帶訂單減少」是相關性（雨天和訂單量的統計關聯），可以幫助我們預測；但要決定「如果我們在雨天提供折扣，訂單量會增加多少？」就是干預問題，需要因果推論，不能直接用相關性推算。諾貝爾獎得主 Judea Pearl 提出的因果階層，清楚區分了三個層次：「看到（Seeing）」對應統計關聯，「做（Doing）」對應干預和反事實，「想像（Imagining）」對應更複雜的反事實推理——目前的 AI 大多只停留在第一層。

回應策略（Gaming）：當用戶知道 AI 系統的決策邏輯後，他們可能會刻意製造符合「相關性」的假象。最典型的例子是徵信系統：如果信用評分模型學到「有養貓的用戶還款率更高」（純屬相關，因為養寵物通常反映更穩定的生活型態），一旦這個模式廣為人知，貸款申請人可能為了提高信用分而刻意表示自己有養貓，而這時這個特徵就失去了預測能力。

應用場景

場景	容易犯的錯誤	正確分析框架	識別混淆變數的方法
行銷分析：廣告點擊率 vs 購買率	以為點擊率高直接導致購買率高	可能有「用戶原本就有購買意圖」的混淆：有意圖的人既更可能點廣告也更可能購買	A/B 測試：隨機分組，控制其他變數
教育研究：補習班 vs 成績	上補習班導致成績提升	家庭社經地位是混淆變數：有錢的家庭既能負擔補習班，又能提供更好的學習環境	固定效應模型，控制家庭背景變數
醫學研究：咖啡 vs 心臟病	喝咖啡會導致心臟病	吸菸是混淆變數：吸菸者更可能喝咖啡且更可能得心臟病	隨機對照試驗（RCT）或統計控制吸菸變數
HR 分析：遠端工作 vs 生產力	遠端工作直接影響生產力	能選擇遠端工作的通常是資深員工，本來生產力就高（選擇性偏誤）	雙重差分法：比較政策前後的變化差異
電商分析：評論數 vs 銷量	評論越多銷量越好	反向因果：銷量高才能累積更多評論，兩者互相強化	自然實驗：利用評論功能上線前後的對比
產品分析：功能使用 vs 留存率	使用某功能直接提升留存率	原本更投入的用戶既更可能用深度功能，也更可能留存（混淆）	工具變數法或 A/B 測試強制推送功能使用

常見誤區

誤區 1：「AI 模型找到高相關性特徵，就代表找到了因果關係」

機器學習模型是非常強大的相關性探測器，但完全不具備自動辨識因果關係的能力。模型可能學到一個強大的預測規律，但這個規律背後可能是真實的因果機制，也可能是混淆變數造成的虛假相關，或純粹是訓練資料的巧合。一個金融信用評分模型可能發現「居住在特定郵遞區號的申請人違約率更低」——這是真實的統計相關，也許可以用來預測；但如果把這個相關解讀為「住在這個地區導致更好的還款行為」，並據此拒絕其他地區的申請，就是在利用一個沒有因果支撐的相關性做歧視性決策（地理歧視）。負責任的 AI 應用需要問：這個模型特徵背後有合理的因果機制嗎？還是只是相關性？

誤區 2：「相關係數接近 0 就代表兩個變數沒有關係」

皮爾森相關係數衡量的是線性關係的強度。兩個變數之間完全沒有線性相關（r ≈ 0），並不代表它們沒有關係——它們可能有很強的非線性關係。最典型的例子：如果你計算 x 和 x²（x 的平方）之間的皮爾森相關係數，當 x 的值在 -a 到 +a 的對稱範圍內，r 恰好等於 0（因為線性趨勢被正負對稱抵消），但 x 和 x² 之間顯然有非常明確的函數關係（拋物線）。在 AI 特徵工程中，這個誤解可能讓你錯誤地刪掉實際上對模型很有用的特徵。解決方案：不要只看皮爾森相關係數，同時看散布圖（Scatter Plot）的視覺形狀，或使用能捕捉非線性關係的互信息（Mutual Information）等指標。

誤區 3：「只要樣本量夠大，統計相關就能代表因果」

這個誤解認為：只要資料量夠大，統計分析就能自動揭示因果。事實恰恰相反——大樣本只會讓統計相關性更精確、更顯著，但不改變它的因果解讀能力。有了 100 萬筆資料，你能非常精確地估計出冰淇淋銷量和溺水人數的相關係數是 0.87，但這個 0.87 仍然是混淆變數（氣溫）造成的虛假相關，和樣本量多寡無關。更嚴重的是，大樣本會讓微小的相關性達到「統計顯著性（p < 0.05）」，讓人誤以為這個相關性是「重要的」——但統計顯著性和業務重要性、以及因果性都是完全不同的概念。建立因果關係需要的不是更大的觀察資料集，而是正確設計的實驗（如 A/B 測試）或因果推論方法論。

小練習

練習 1：識別混淆變數和因果方向

以下四個「發現」，請分析：這是真實因果、還是虛假相關？如果是虛假相關，混淆變數可能是什麼？如果可能是反向因果，請說明。

發現 A：研究發現，家裡書本數量越多的孩子，學業成績越好（相關係數 0.61）。媒體報導建議：「多買書放家裡，孩子成績就會提升！」

發現 B：分析台灣便利商店資料，發現「外帶熱飲銷量」和「緊急煞車事故件數」在時間序列上高度正相關。

發現 C：醫院記錄顯示，接受過侵入性手術的病人，出院後一個月的死亡率（3.2%）遠高於未接受侵入性手術的病人（0.8%）。

發現 D：社群平台分析發現，每天使用平台超過 3 小時的用戶，平均生活滿意度評分明顯低於使用不足 1 小時的用戶，差異在統計上高度顯著（p < 0.001）。

查看答案

**發現 A：家中書本數 vs 學業成績** 類型：**虛假相關（混淆變數）**，媒體的建議是錯的。混淆變數：**家庭社經地位和父母教育程度**。高教育程度的父母既會在家中放更多書，也會更重視孩子的教育、花更多時間陪伴學習、能負擔補習費用——這些因素才是真正影響學業成績的原因。「把書放家裡」不會自動提升成績，除非同時伴隨著閱讀習慣的培養（而這需要父母引導，背後還是父母教育程度的因素）。真正的因果可能部分存在（閱讀確實對學業有幫助），但「家中書本數量」作為一個變數捕捉的主要是社經地位，而非直接因果。這個案例也說明：即使相關係數高達 0.61，也不能直接推斷政策效果。 **發現 B：外帶熱飲 vs 緊急煞車事故** 類型：**虛假相關（共同原因）**，很可能是純粹的季節性巧合。混淆變數：**天氣和季節**。冬天天冷，外帶熱飲銷量增加；冬天路面濕滑、霧氣影響視線、下雪結冰（台灣高山地區）或豪雨，也導致緊急煞車事故增加。兩者都受天氣驅動，彼此之間沒有任何合理的因果機制。這是「季節性共同原因」造成的典型虛假相關。此外，台灣早上通勤時段外帶熱飲最多，早上通勤也是事故高峰，時間段的重疊也是混淆因素。 **發現 C：侵入性手術 vs 術後死亡率** 類型：**嚴重的選擇性偏誤（反向因果方向的混淆）** 混淆變數：**病情嚴重程度（疾病嚴重度）**。侵入性手術的對象通常是病情更嚴重的患者——正是因為他們病情危重，醫師才不得不採用高風險的侵入性手術。病情嚴重（原因）既導致需要侵入性手術，也導致更高的死亡率，手術本身不是獨立的死亡原因。這個情形在醫學統計中被稱為「健康用戶偏誤（Healthy User Bias）」的反面——接受侵入性手術的群體本來就是最脆弱的患者群體，直接比較死亡率是在比較兩個完全不同健康程度的群體。正確的評估需要針對**相同病情嚴重程度**的患者，比較接受手術組和未接受手術組的差異（這正是 RCT 隨機對照試驗的目的）。 **發現 D：社群平台使用時間 vs 生活滿意度** 類型：**方向不確定，可能雙向因果，也可能有混淆** 可能的解釋一（正向因果）：長時間使用社群媒體確實降低了生活滿意度（社會比較、焦慮、睡眠剝奪）——這是許多心理學研究的假設方向。可能的解釋二（反向因果）：生活滿意度本來就低的人（更孤獨、更焦慮），才更傾向於花大量時間在社群媒體上尋求社交滿足感——是「不快樂」先於「使用時間長」。可能的解釋三（雙向強化）：兩個方向都有，形成惡性循環。即使 p < 0.001 的統計顯著性，也無法確定方向。要釐清因果方向，需要縱向研究（追蹤同一批人在不同使用時間下的滿意度變化）或實驗設計（強制一組人減少使用時間，觀察滿意度是否改變）。

練習 2：設計因果分析框架

一家線上學習平台想了解：「是否推薦學習夥伴配對功能（Buddy System）真的提升了課程完課率？」

他們目前有的資料：過去半年，使用了配對功能的學員（2,000 人）完課率 72%，未使用的學員（8,000 人）完課率 45%。產品經理看到這個數字後說：「差這麼多，代表配對功能真的有效！讓我們大力推廣吧。」

請回答：

為什麼直接比較這兩組的完課率可能無法得出正確的因果結論？
最可能的混淆變數是什麼？
要真正驗證配對功能的因果效果，你會設計什麼樣的實驗？

查看答案

**問題 1：為何直接比較可能有誤** 這是典型的**選擇性偏誤（Selection Bias）**問題。使用配對功能的 2,000 人並非隨機的——他們是**主動選擇**去使用這個功能的學員。主動選擇去使用學習工具的人，可能本來就比其他人更有學習動機、更自律、更願意投入時間。也就是說，這兩組人在「開始學習」之前就已經是不同的群體，不是因為配對功能讓他們完課率高，而是因為高完課意願的人更可能使用配對功能——本末倒置了。直觀比喻：如果調查發現「有帶水壺去健身房的人，運動效果更好」，你不能因此說「帶水壺讓運動效果更好」，因為有帶水壺的人本來就是更認真鍛鍊的人，水壺只是動機的表徵，不是原因。 **問題 2：最可能的混淆變數** 主要混淆變數：**學習動機和自律程度**——這個潛在的個人特質既影響「是否主動使用配對功能」，也影響「最終是否完課」。其他可能的混淆變數： - 課程難度（難的課程完課率低，學員可能更需要也更願意找夥伴） - 可用時間（時間更充裕的學員既更可能完課，也更可能參與需要協調的配對活動） - 學員年齡和職涯需求（職業轉換需求強烈的學員完課意志更強，也更可能使用所有功能） **問題 3：實驗設計** **最嚴謹方案：A/B 隨機對照實驗（RCT）** 設計：在新用戶註冊時，隨機將 50% 分配到「實驗組」（課程介面顯示配對功能入口，並主動引導使用），另外 50% 分配到「對照組」（課程介面不顯示配對功能，隱藏該功能入口）。關鍵設計細節： - 隨機分組（Randomization）確保兩組在動機、背景、課程選擇上的分佈相近，消除選擇偏誤 - 樣本量計算：根據預期效果大小（例如希望偵測到 5% 的完課率提升）和顯著性水準（p < 0.05）計算所需樣本量，確保實驗有足夠的統計效力（Statistical Power） - 實驗期間：至少涵蓋一個完整課程週期（例如 3 個月），讓完課率有足夠時間表現 - 分析指標：主要指標是完課率，次要指標是課程學習時長、測驗通過率、學員滿意度 - 防止污染（Contamination）：確保對照組成員無法得知或使用配對功能 **次要方案：準實驗設計（Quasi-experiment）** 如果無法做真正的 RCT（例如平台政策不允許部分用戶使用功能），可以使用： - **傾向評分匹配（Propensity Score Matching）**：針對每個使用了配對功能的學員，在未使用組中找到在可觀測特徵（年齡、課程類別、歷史學習時長、初始動機測試分數）上最相似的對應者，形成配對比較，盡量控制可觀測的混淆變數 - 這個方法仍然無法控制不可觀測的混淆（如真正的學習動機），但比直接比較更接近因果推論 **實驗結果的正確解讀**：若實驗組完課率顯著高於對照組（且差異在統計上顯著，p < 0.05），才能說「配對功能（的可及性）提升了完課率」。注意：這個結論是「提供功能入口提升完課率」，而不是「使用了配對功能提升完課率」——因為實驗組中也會有人不使用功能（Intent-to-Treat 分析）。

關鍵字自我檢核

✅ 相關性 ✅ Correlation ✅ 因果性 ✅ Causality ✅ 虛假相關 ✅ Spurious Correlation ✅ 混淆變數 ✅ Confounding Variable ✅ 皮爾森相關係數 ✅ Pearson Correlation ✅ 斯皮爾曼相關係數 ✅ Spearman Correlation ✅ 隨機對照試驗 ✅ RCT ✅ 因果圖 ✅ Causal Graph ✅ 反事實推論 ✅ Counterfactual ✅ 辛普森悖論 ✅ Simpson's Paradox ✅ 選擇偏誤 ✅ Selection Bias