M08.03|相關性 vs 因果性:AI 最容易搞混的關係
冰淇淋銷量和溺水人數高度相關 — 但吃冰淇淋不會讓人溺水
本講學習重點
相關係數(Pearson r):+1 完全正相關,-1 完全負相關,0 無線性相關;|r|>0.7 為強相關
相關不代表因果:冰淇淋 vs 溺水(共同原因:夏天氣溫),鞋子尺寸 vs 薪資(共同原因:年齡/工作經驗)
混淆變數(Confounder):同時影響自變數和因變數的第三個變數,造成虛假相關
辛普森悖論:分組統計結論和合併統計結論相反(如腎結石治療成功率案例)
因果推論方法:隨機對照試驗(RCT,黃金標準)、工具變數法、斷點回歸、差異中差異法
AI/ML 模型的本質是學習統計相關性,不能自動推斷因果方向
Judea Pearl 的因果階層:關聯(看)→ 干預(做)→ 反事實(想像)
🎙️ Podcast(中文)
一句話搞懂
相關性說的是「兩件事同時發生的頻率」,因果性說的是「A 發生導致 B 發生」——冰淇淋銷量和溺水人數在夏天都會上升,兩者高度相關,但冰淇淋沒有讓人溺水,因為背後有一個共同原因叫做「炎熱天氣」;搞不清楚這個區別,AI 系統做的建議就可能從「相關的」變成「危險的」。
白話解說
相關係數:用一個數字描述「同進退」程度
相關性(Correlation)描述的是兩個數值變數之間共同變動的強弱和方向。最常用的量化工具是皮爾森相關係數(Pearson’s r),數值範圍從 -1 到 +1:+1 表示完全正相關(一個增加,另一個等比例增加);-1 表示完全負相關(一個增加,另一個等比例減少);0 表示沒有線性關係。
| 解讀相關係數強弱的常用標準: | r | 在 0.8–1.0 為非常強相關,0.6–0.8 為強相關,0.4–0.6 為中等相關,0.2–0.4 為弱相關,0–0.2 幾乎無關。但這些範圍只是參考——在物理學中,相關係數低於 0.99 可能就不夠好;在社會科學或醫學中,相關係數 0.3 可能已經是很有意義的發現,因為人類行為本來就難以精確預測。 |
皮爾森相關係數假設兩個變數都接近常態分佈,且只能捕捉線性關係。若資料是非線性的(例如二次曲線關係),或含有大量離群值,更適合用斯皮爾曼等級相關係數(Spearman’s ρ)——它計算的是兩個變數排名之間的相關,對非線性關係和離群值更穩健。
相關不等於因果:三種混淆情況
「相關不等於因果」是統計學最重要的箴言之一,但這個道理說起來容易,在實際分析中卻一再被違反。混淆的情況主要有三種:
第一種:共同原因(Common Cause,又稱「混淆變數」):冰淇淋銷量和溺水人數都與「氣溫」正相關——氣溫高,冰淇淋買得多,同時去游泳的人也多,溺水事故也就多。冰淇淋和溺水之間看起來相關,但真正的原因是氣溫,氣溫是這裡的混淆變數(Confounding Variable)或混淆因子。另一個經典例子:研究發現鞋子尺寸越大,薪資越高(正相關)——但背後原因是「年齡」,年齡大的人腳通常更大,同時因為工作經驗更豐富而薪資更高;鞋子和薪資之間並沒有直接的因果關係。
第二種:反向因果(Reverse Causality):研究發現,醫院病床數量和死亡人數正相關——病床越多的醫院,死亡人數越多。這個相關是真實的,但因果方向反了:不是「病床多導致死亡多」,而是「更多重症患者聚集到有更多病床的大型醫院,導致大醫院死亡人數更高」。在 AI 模型中,反向因果會讓模型學到看似有意義但實際上方向錯誤的「規律」。
第三種:純粹的巧合(Spurious Correlation,虛假相關):美國研究員 Tyler Vigen 建立了一個「虛假相關」資料庫,發現一些統計上高度相關但毫無因果關係的組合,例如:美國緬因州的離婚率和美國人均人造奶油消費量的相關係數高達 0.99(1999–2009 年資料);尼可拉斯·凱吉電影每年的出演數量和游泳池溺水人數高度正相關。這些「相關」只是在特定時間段內的數字巧合,換一段時間就消失了。在大數據時代,當你有數千個變數時,純粹靠搜尋一定能找到許多「相關的」組合,但其中大多數是毫無意義的巧合。
辛普森悖論:聚合資料如何誤導你
辛普森悖論(Simpson’s Paradox)是統計中最令人驚訝的現象之一:分組看的趨勢,和把所有數據合在一起看的趨勢,可能完全相反。
最著名的真實案例是 1970 年代加州大學伯克利分校的招生性別歧視爭議。研究者發現,在合併資料中,男性申請者的錄取率(44%)明顯高於女性(35%),看起來存在性別歧視。但當依照各系所分拆分析後,幾乎每個系所女性的錄取率都和男性差不多,甚至更高。矛盾如何解釋?因為女性更傾向於申請競爭激烈、錄取率低的系所(如法律、醫學),而男性更傾向於申請錄取率高的系所——「申請的系所」是這裡的混淆變數,導致了合併後的假象。
另一個醫學案例:比較兩種腎結石治療方法 A 和 B 的成功率——合併所有病例,方法 B 的總成功率(83%)高於方法 A(78%);但分開來看,對小型腎結石,方法 A 的成功率(93%)高於方法 B(87%);對大型腎結石,方法 A 的成功率(73%)也高於方法 B(69%)。方法 A 在每個亞組都更好,但合計起來卻看似更差——因為方法 A 被更多用於更難處理的大型腎結石案例(樣本選擇的混淆)。辛普森悖論告訴我們:在做決策之前,必須思考是否存在關鍵的分群變數,合併統計可能掩蓋完全相反的實際情況。
為什麼 AI 模型容易混淆相關和因果
目前絕大多數的機器學習模型,從線性迴歸到深度神經網路,本質上都是在學習輸入變數和輸出變數之間的統計相關性,而不是學習因果機制。這帶來了幾個重要的限制:
脆弱性(Brittleness):如果模型學到的是相關性而非因果,當環境改變時(原本的相關性消失或反轉),模型就會失效。例如,電商推薦系統學到「買尿布的用戶同時也買啤酒」(著名的啤酒尿布案例,因為年輕父親常一起買),但如果促銷改變了這個購買模式,相關性就消失了。
無法支持干預(Intervention):知道「下雨天外帶訂單減少」是相關性(雨天和訂單量的統計關聯),可以幫助我們預測;但要決定「如果我們在雨天提供折扣,訂單量會增加多少?」就是干預問題,需要因果推論,不能直接用相關性推算。諾貝爾獎得主 Judea Pearl 提出的因果階層,清楚區分了三個層次:「看到(Seeing)」對應統計關聯,「做(Doing)」對應干預和反事實,「想像(Imagining)」對應更複雜的反事實推理——目前的 AI 大多只停留在第一層。
回應策略(Gaming):當用戶知道 AI 系統的決策邏輯後,他們可能會刻意製造符合「相關性」的假象。最典型的例子是徵信系統:如果信用評分模型學到「有養貓的用戶還款率更高」(純屬相關,因為養寵物通常反映更穩定的生活型態),一旦這個模式廣為人知,貸款申請人可能為了提高信用分而刻意表示自己有養貓,而這時這個特徵就失去了預測能力。
應用場景
| 場景 | 容易犯的錯誤 | 正確分析框架 | 識別混淆變數的方法 |
|---|---|---|---|
| 行銷分析:廣告點擊率 vs 購買率 | 以為點擊率高直接導致購買率高 | 可能有「用戶原本就有購買意圖」的混淆:有意圖的人既更可能點廣告也更可能購買 | A/B 測試:隨機分組,控制其他變數 |
| 教育研究:補習班 vs 成績 | 上補習班導致成績提升 | 家庭社經地位是混淆變數:有錢的家庭既能負擔補習班,又能提供更好的學習環境 | 固定效應模型,控制家庭背景變數 |
| 醫學研究:咖啡 vs 心臟病 | 喝咖啡會導致心臟病 | 吸菸是混淆變數:吸菸者更可能喝咖啡且更可能得心臟病 | 隨機對照試驗(RCT)或統計控制吸菸變數 |
| HR 分析:遠端工作 vs 生產力 | 遠端工作直接影響生產力 | 能選擇遠端工作的通常是資深員工,本來生產力就高(選擇性偏誤) | 雙重差分法:比較政策前後的變化差異 |
| 電商分析:評論數 vs 銷量 | 評論越多銷量越好 | 反向因果:銷量高才能累積更多評論,兩者互相強化 | 自然實驗:利用評論功能上線前後的對比 |
| 產品分析:功能使用 vs 留存率 | 使用某功能直接提升留存率 | 原本更投入的用戶既更可能用深度功能,也更可能留存(混淆) | 工具變數法或 A/B 測試強制推送功能使用 |
常見誤區
誤區 1:「AI 模型找到高相關性特徵,就代表找到了因果關係」
機器學習模型是非常強大的相關性探測器,但完全不具備自動辨識因果關係的能力。模型可能學到一個強大的預測規律,但這個規律背後可能是真實的因果機制,也可能是混淆變數造成的虛假相關,或純粹是訓練資料的巧合。一個金融信用評分模型可能發現「居住在特定郵遞區號的申請人違約率更低」——這是真實的統計相關,也許可以用來預測;但如果把這個相關解讀為「住在這個地區導致更好的還款行為」,並據此拒絕其他地區的申請,就是在利用一個沒有因果支撐的相關性做歧視性決策(地理歧視)。負責任的 AI 應用需要問:這個模型特徵背後有合理的因果機制嗎?還是只是相關性?
誤區 2:「相關係數接近 0 就代表兩個變數沒有關係」
皮爾森相關係數衡量的是線性關係的強度。兩個變數之間完全沒有線性相關(r ≈ 0),並不代表它們沒有關係——它們可能有很強的非線性關係。最典型的例子:如果你計算 x 和 x²(x 的平方)之間的皮爾森相關係數,當 x 的值在 -a 到 +a 的對稱範圍內,r 恰好等於 0(因為線性趨勢被正負對稱抵消),但 x 和 x² 之間顯然有非常明確的函數關係(拋物線)。在 AI 特徵工程中,這個誤解可能讓你錯誤地刪掉實際上對模型很有用的特徵。解決方案:不要只看皮爾森相關係數,同時看散布圖(Scatter Plot)的視覺形狀,或使用能捕捉非線性關係的互信息(Mutual Information)等指標。
誤區 3:「只要樣本量夠大,統計相關就能代表因果」
這個誤解認為:只要資料量夠大,統計分析就能自動揭示因果。事實恰恰相反——大樣本只會讓統計相關性更精確、更顯著,但不改變它的因果解讀能力。有了 100 萬筆資料,你能非常精確地估計出冰淇淋銷量和溺水人數的相關係數是 0.87,但這個 0.87 仍然是混淆變數(氣溫)造成的虛假相關,和樣本量多寡無關。更嚴重的是,大樣本會讓微小的相關性達到「統計顯著性(p < 0.05)」,讓人誤以為這個相關性是「重要的」——但統計顯著性和業務重要性、以及因果性都是完全不同的概念。建立因果關係需要的不是更大的觀察資料集,而是正確設計的實驗(如 A/B 測試)或因果推論方法論。
小練習
練習 1:識別混淆變數和因果方向
以下四個「發現」,請分析:這是真實因果、還是虛假相關?如果是虛假相關,混淆變數可能是什麼?如果可能是反向因果,請說明。
發現 A:研究發現,家裡書本數量越多的孩子,學業成績越好(相關係數 0.61)。媒體報導建議:「多買書放家裡,孩子成績就會提升!」
發現 B:分析台灣便利商店資料,發現「外帶熱飲銷量」和「緊急煞車事故件數」在時間序列上高度正相關。
發現 C:醫院記錄顯示,接受過侵入性手術的病人,出院後一個月的死亡率(3.2%)遠高於未接受侵入性手術的病人(0.8%)。
發現 D:社群平台分析發現,每天使用平台超過 3 小時的用戶,平均生活滿意度評分明顯低於使用不足 1 小時的用戶,差異在統計上高度顯著(p < 0.001)。
查看答案
**發現 A:家中書本數 vs 學業成績** 類型:**虛假相關(混淆變數)**,媒體的建議是錯的。 混淆變數:**家庭社經地位和父母教育程度**。高教育程度的父母既會在家中放更多書,也會更重視孩子的教育、花更多時間陪伴學習、能負擔補習費用——這些因素才是真正影響學業成績的原因。「把書放家裡」不會自動提升成績,除非同時伴隨著閱讀習慣的培養(而這需要父母引導,背後還是父母教育程度的因素)。 真正的因果可能部分存在(閱讀確實對學業有幫助),但「家中書本數量」作為一個變數捕捉的主要是社經地位,而非直接因果。這個案例也說明:即使相關係數高達 0.61,也不能直接推斷政策效果。 **發現 B:外帶熱飲 vs 緊急煞車事故** 類型:**虛假相關(共同原因)**,很可能是純粹的季節性巧合。 混淆變數:**天氣和季節**。冬天天冷,外帶熱飲銷量增加;冬天路面濕滑、霧氣影響視線、下雪結冰(台灣高山地區)或豪雨,也導致緊急煞車事故增加。兩者都受天氣驅動,彼此之間沒有任何合理的因果機制。這是「季節性共同原因」造成的典型虛假相關。 此外,台灣早上通勤時段外帶熱飲最多,早上通勤也是事故高峰,時間段的重疊也是混淆因素。 **發現 C:侵入性手術 vs 術後死亡率** 類型:**嚴重的選擇性偏誤(反向因果方向的混淆)** 混淆變數:**病情嚴重程度(疾病嚴重度)**。侵入性手術的對象通常是病情更嚴重的患者——正是因為他們病情危重,醫師才不得不採用高風險的侵入性手術。病情嚴重(原因)既導致需要侵入性手術,也導致更高的死亡率,手術本身不是獨立的死亡原因。 這個情形在醫學統計中被稱為「健康用戶偏誤(Healthy User Bias)」的反面——接受侵入性手術的群體本來就是最脆弱的患者群體,直接比較死亡率是在比較兩個完全不同健康程度的群體。正確的評估需要針對**相同病情嚴重程度**的患者,比較接受手術組和未接受手術組的差異(這正是 RCT 隨機對照試驗的目的)。 **發現 D:社群平台使用時間 vs 生活滿意度** 類型:**方向不確定,可能雙向因果,也可能有混淆** 可能的解釋一(正向因果):長時間使用社群媒體確實降低了生活滿意度(社會比較、焦慮、睡眠剝奪)——這是許多心理學研究的假設方向。 可能的解釋二(反向因果):生活滿意度本來就低的人(更孤獨、更焦慮),才更傾向於花大量時間在社群媒體上尋求社交滿足感——是「不快樂」先於「使用時間長」。 可能的解釋三(雙向強化):兩個方向都有,形成惡性循環。 即使 p < 0.001 的統計顯著性,也無法確定方向。要釐清因果方向,需要縱向研究(追蹤同一批人在不同使用時間下的滿意度變化)或實驗設計(強制一組人減少使用時間,觀察滿意度是否改變)。練習 2:設計因果分析框架
一家線上學習平台想了解:「是否推薦學習夥伴配對功能(Buddy System)真的提升了課程完課率?」
他們目前有的資料:過去半年,使用了配對功能的學員(2,000 人)完課率 72%,未使用的學員(8,000 人)完課率 45%。產品經理看到這個數字後說:「差這麼多,代表配對功能真的有效!讓我們大力推廣吧。」
請回答:
- 為什麼直接比較這兩組的完課率可能無法得出正確的因果結論?
- 最可能的混淆變數是什麼?
- 要真正驗證配對功能的因果效果,你會設計什麼樣的實驗?