因果推斷入門：為什么需要因果推斷？（1）

發(fā)布人：數(shù)據(jù)派THU 時(shí)間：2022-09-18 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

來源：PaperWeekly

本文是 Brady Neal 推出的因果推斷課程 Introduction to Causal Inference 的中文筆記，主要是參考 Lecture Notes 加上一些自己的理解。

課程主頁：

https://www.bradyneal.com/causal-inference-course

Lecture Note：

https://www.bradyneal.com/Introduction_to_Causal_Inference-Dec17_2020-Neal.pdf

課程視頻：

https://www.youtube.com/playlist?list=PLoazKTcS0Rzb6bb9L508cyJ1z-U9iWkA0

1、為什么需要因果推斷

1.1 辛普森悖論

首先，考慮一個(gè)與現(xiàn)實(shí)情況很相關(guān)的例子：針對某種新冠病毒 COVID-27，假設(shè)有兩種療法：方案 A 和方案 B，B 比 A 更稀缺（耗費(fèi)的醫(yī)療資源更多），因此目前接受方案 A 的患者與接受方案 B 的患者比例約為：73%/27%。想象一下你是一名專家，需要選擇其中一種療法，而這個(gè)國家只能選擇這一種療法，那么問題來了，如何選擇才能盡量少的減少死亡？

▲ 表1.1

假設(shè)你有關(guān)于死于 COVID-27 的人的百分比數(shù)據(jù)（表1）。他們所接受的治療是與病情的嚴(yán)重程度相關(guān)的，mild 表示輕癥，severe 表示重癥。在表 1 中，可以看到接受方案的人中總共有 16% 的人死亡，而接受 B 的死亡率是 19%，我們可能會(huì)想更貴的治療方案 B 比便宜的治療方案 A 的死亡率要更高，這不是離譜嗎。然而，當(dāng)我們按照輕癥、重癥分別來看（Mild 列和 Severe 列），情況確是相反的。在這兩種情況下，接受 B 的死亡率比 A 都要低。
此時(shí)神奇的悖論就出現(xiàn)了。如果從全局視角來看，我們更傾向于選擇 A 方案，因?yàn)?16%<19%。但是，從 mild 和 severe 視角來看，我們都更傾向于方案 B，因?yàn)?10%<15%，20%<30%。此時(shí)你作為專家給出了一下結(jié)論：“如果能判斷患者是輕癥或者重癥，就用方案 B，如果判斷不了就用方案 A”，此時(shí)估計(jì)你已經(jīng)被人民群眾罵成磚家了。
導(dǎo)致出現(xiàn)辛普森悖論的關(guān)鍵因素是各個(gè)類別的非均勻性。接受 A 治療的 1500 人中有 1400 人病情輕微，而接受 B 治療的 550 人中有 500 人病情嚴(yán)重。因?yàn)椴∏檩p的人死亡的可能性較小，這意味著接受治療 A 的人的總死亡率低于如果病情輕和病情重的人各一半的情況。治療 B 的情況則相反，這就導(dǎo)致了 Total 一列 16%<19%。
其實(shí)，方案 A 或方案 B 都可能是正確答案，這取決于數(shù)據(jù)的因果結(jié)構(gòu)。換句話說，因果關(guān)系是解決辛普森悖論的關(guān)鍵。在下文，我們會(huì)首先從直覺上給出什么時(shí)候應(yīng)該偏向于方案 A，什么時(shí)候應(yīng)該偏向于方案 B。更理論的解釋會(huì)放到后面再講。

Scenario 1

▲ 圖1.1

如圖 1.1 所示，C（condition）是 T（treatment）和 Y（outcome）的共同原因。這里 C 代表病情輕重，T 代表治療方案，Y 代表是否死亡。這個(gè) Graph 的意思是說病情輕重會(huì)影響醫(yī)生給你用哪種方案，而且病情輕重本身也會(huì)導(dǎo)致是否死亡。治療 B 在降低死亡率方面更有效。
在這種情況下，醫(yī)生決定給大多數(shù)病情輕微的人提供 A 方案，而把更昂貴、更有限的 B 治療方法留給病情嚴(yán)重的人。因?yàn)椴∏閲?yán)重的人更有可能死亡（圖 1.1 中的 C→Y ），并導(dǎo)致一個(gè)人更有可能接受 B 治療（圖 1.1 中的 C→T）。因此，總體 B 的死亡率更高的原因僅僅是選擇方案 B 中的人大多數(shù)（500/550）是重癥，而重癥即使用了更貴的方案 B，死亡率 100/500=20% 也比輕癥用方案 B 的死亡率 5/50=10% 要高，最終混合的結(jié)果會(huì)更偏向于重癥的結(jié)果。
在這里，病情 C 混淆了治療 T 對死亡率 O 的影響。為了糾正這種混雜因素，我們必須研究相同條件的病人的 T 和 Y 的關(guān)系。這意味著，最好的治療方法是在每個(gè)子群體（表1.1 中的“mild”和“severe”列）中選擇低死亡率的治療方法：即方案 B。

Scenario 2

▲ 圖1.2
如圖 1.2，T（治療方案）是 C（病情輕重）的原因，C 又是 Y（死亡與否）的原因。這種情況的實(shí)際場景是：方案 B 非常稀缺，以至于患者在選擇接受治療后需要等待很長時(shí)間才能實(shí)際接受治療，而選擇 A 的患者很快就會(huì)得到治療。在這種情況下，治療方案是與病情無關(guān)的，而情境一，病情會(huì)決定方案。
由于 COVID-27 患者的病情會(huì)隨著時(shí)間的推移而惡化，方案 B 實(shí)際上會(huì)導(dǎo)致病情較輕的患者發(fā)展為重癥，從而導(dǎo)致更高的死亡率。因此，即使 B 一旦用****就比 A 更有效（圖1.2 中的正面作用 T→Y），由于方案 B 的長時(shí)間等待會(huì)導(dǎo)致病情惡化（圖1.2 中的負(fù)面作用 T→ C →Y）550 個(gè)選擇 B 的人里面有 500 人因?yàn)榈鹊臅r(shí)間長變重癥了，而只有 50 人是輕癥，因此 total 的結(jié)果 19% 會(huì)更偏向于 B 的重癥死亡率 20%。同理，Total A 的死亡率 16% 會(huì)更偏向于 A 的輕癥死亡率 15%。
此時(shí)，最優(yōu)的選擇是方案 A，因?yàn)?total 的死亡率更低。而實(shí)際表格的結(jié)果也符合，因?yàn)?B 治療更貴，所以以 0.27 的概率選擇方案 B，而以 0.73 的概率選擇 A。
總之，更有效的治療完全取決于問題的因果結(jié)構(gòu)。在情景 1 中（圖1.1）， B 更有效。在情景 2 中（圖1.2）的一個(gè)原因， A 更有效。沒有因果關(guān)系，辛普森悖論就無法解決。有了因果關(guān)系，這就不是悖論了。

1.2 因果推斷的應(yīng)用

因果推斷對科學(xué)來說是至關(guān)重要的，因?yàn)槲覀兘?jīng)常想提出因果要求，而不僅僅是關(guān)聯(lián)性要求。例如，如果我們要在一種疾病的治療方法中進(jìn)行選擇，我們希望選擇能使大多數(shù)人得到治愈的治療方法，同時(shí)又不會(huì)造成太多的不良副作用。如果我們想讓一個(gè)強(qiáng)化學(xué)習(xí)算法獲得最大的回報(bào)，我們希望它采取的行動(dòng)能使它獲得最大的回報(bào)。如果我們研究社交媒體對心理健康的影響，我們就會(huì)試圖了解造成某一心理健康結(jié)果的主要原因是什么，并按照可歸因于每個(gè)原因的結(jié)果的百分比排列這些原因。
因果推斷對于嚴(yán)格的決策至關(guān)重要。例如，假設(shè)我們正在考慮實(shí)施幾種不同的政策來減少溫室氣體排放，但由于預(yù)算限制，我們必須只選擇一種。如果我們想最大限度地發(fā)揮作用，我們應(yīng)該進(jìn)行因果分析，以確定哪種政策將導(dǎo)致最大的減排。再舉一個(gè)例子，假設(shè)我們正在考慮采取幾項(xiàng)干預(yù)措施來減少全球貧困。我們想知道哪些政策將最大程度地減少貧困。
既然我們已經(jīng)了解了辛普森悖論的一般例子以及科學(xué)和決策中的一些具體例子，我們將轉(zhuǎn)向因果段與預(yù)測的不同之處。

1.3 相關(guān)性≠因果關(guān)系

許多人都會(huì)聽過“相關(guān)并不意味著因果（correlation does not imply causation）”的口頭禪。首先通過一個(gè)例子解釋為何會(huì)這樣。
▲ 圖1.3
如圖 1.3，每年因落入游泳池而溺水的人數(shù)與 Nicolas Cage 每年出演的電影數(shù)量具有高度相關(guān)性。如果只看這張圖可以得到以下幾種解釋：（1）Nicolas Cage 在他的電影中鼓勵(lì)糟糕的游泳者跳進(jìn)游泳池。（2）當(dāng) Nicolas Cage 看到那一年發(fā)生了多少溺水事件時(shí)，他是更有動(dòng)力去出演更多的電影。（3）也許尼古拉斯凱奇有興趣增加他在因果推理從業(yè)者中的知名度，所以他回到過去說服他過去的自己做正確數(shù)量的電影讓我們看到這種相關(guān)性，但又不完全匹配，因?yàn)檫@會(huì)引起懷疑，從而阻止他以這種方式操縱與數(shù)據(jù)的相關(guān)性。
但是，只要是個(gè)有常識(shí)的人都知道上述解釋都是不對的，兩者沒有因果關(guān)系，因此是一種虛假的相關(guān)性。從這個(gè)簡單的例子我們可以直觀的理解“相關(guān)性并不等于因果關(guān)系”。

1.3.1 為什么關(guān)聯(lián)不等于因果

注意：“相關(guān)性（Correlation）”經(jīng)常被口語化地用作統(tǒng)計(jì)依賴性（statistical dependence）的同義詞，然而，“關(guān)聯(lián)”在理論上只是對 linear statistical dependence 的一種衡量。在以后，我們將統(tǒng)一使用關(guān)聯(lián)（association）一詞來表示 statistical dependence。
對于任何給定數(shù)量的關(guān)聯(lián)，并不是“所有的關(guān)聯(lián)都是因果關(guān)系”或“沒有任何關(guān)聯(lián)是因果關(guān)系”。有可能存在大量的關(guān)聯(lián)，而其中只有一部分是因果關(guān)系。”關(guān)聯(lián)不等于因果“只是意味著關(guān)聯(lián)的數(shù)量和因果的數(shù)量可以是不同的。
再考慮一個(gè)例子，假設(shè)我們有穿鞋睡覺和醒來后頭痛的數(shù)據(jù)。結(jié)果發(fā)現(xiàn)，在大多數(shù)情況下，如果有人穿鞋睡覺，醒來后會(huì)頭痛。而在大多數(shù)情況下，如果不穿鞋睡覺，醒來后不頭痛。如果不考慮因果，人們把這樣有關(guān)聯(lián)的數(shù)據(jù)解釋為“穿鞋睡覺會(huì)導(dǎo)致人們醒來頭痛”，尤其是當(dāng)他們在尋找一個(gè)理由來證明不穿鞋睡覺是合理的。
▲ 圖1.4
事實(shí)上，它們都是由一個(gè)共同的原因引起的：前一天晚上喝酒（喝醉了大概率才會(huì)穿鞋睡覺）。如圖 1.4 所示，這種變量被稱為“混雜因子（confounder）”或“潛伏變量（lurking variable）”。我們將由 confounder 引起的關(guān)聯(lián)稱為 confounding association，其實(shí)是一個(gè)虛假的關(guān)聯(lián)。
觀察到的 total association 可以由混雜關(guān)聯(lián) confounding association（圖中紅色箭頭）和因果關(guān)聯(lián) causal association（圖中藍(lán)色箭頭）組成?？赡艿那闆r是，穿鞋睡覺確實(shí)對醒來后的頭痛有一丟丟的因果關(guān)系。那么，總的關(guān)聯(lián)將不只是混雜關(guān)聯(lián)，也不只是因果關(guān)聯(lián)，它將是兩者的混合。例如，在圖 1.4 中，因果關(guān)系沿著從穿鞋睡覺到頭痛醒來的藍(lán)色箭頭流動(dòng)。而混雜關(guān)聯(lián)則沿著從穿鞋睡覺到喝酒再到頭痛的紅色路徑流動(dòng)。我們將在第三章中對這些不同種類的關(guān)聯(lián)做出明確的解釋。

1.4 涉及的一些概念

Statistical vs. Causal 即使有無限量的數(shù)據(jù)，我們有時(shí)也無法計(jì)算一些因果量。相比之下，許多統(tǒng)計(jì)數(shù)據(jù)都是關(guān)于解決有限樣本中的不確定性。當(dāng)給定無限數(shù)據(jù)時(shí)，沒有不確定性。然而，關(guān)聯(lián)是一個(gè)統(tǒng)計(jì)概念，并不是因果關(guān)系。即使擁有無限數(shù)據(jù)，在因果推斷方面還有更多工作要做。
Identi?cation（識(shí)別）vs. Estimation（估計(jì)）識(shí)別因果關(guān)系是因果推理的特有內(nèi)容。即使我們有無限的數(shù)據(jù)，這也是一個(gè)有待解決的問題。然而，因果推理也與傳統(tǒng)的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)有著共同的估計(jì)。我們將主要從因果關(guān)系的識(shí)別開始（第2、4 和 6 章），然后轉(zhuǎn)向因果關(guān)系的估計(jì)（第 7 章）。
Interventional（干預(yù)）vs. Observational（觀察）如果我們能夠進(jìn)行干預(yù)/實(shí)驗(yàn)，因果關(guān)系的識(shí)別就相對容易。這是因?yàn)槲覀兛梢詫?shí)際采取我們想測量因果關(guān)系的行動(dòng)，并簡單地測量我們采取該行動(dòng)后的因果關(guān)系。然而，如果只有觀察性數(shù)據(jù)，識(shí)別因果關(guān)系比較困難，因?yàn)闀?huì)有前面提到的 confounder 的存在。

2、潛在結(jié)果potential outcome

2.1 潛在結(jié)果 & 獨(dú)立因果效應(yīng)

首先通過兩個(gè)例子引入這兩個(gè)概念。
Scenario 1：假設(shè)你現(xiàn)在很不開心。而你正在考慮是不是要養(yǎng)一只狗來變得開心些。如果你在養(yǎng)狗后變得開心，這是否意味著是狗狗使你變得快樂？而如果你沒有養(yǎng)狗，你同樣也變得開心了呢？在這種情況下，狗并不是使你開心的必要條件，所以狗對你開心與否有因果效應(yīng)的這個(gè)說法是不太對的。
Scenario 2：另一種情況是，如果你在養(yǎng)狗后變得開心。但是如果你沒有得到一只狗，你依然會(huì)不開心。在這種情況下，狗狗對與你的開心就有很強(qiáng)的因果效應(yīng)。
用 Y 表示結(jié)果——happiness，表示 happy，表示 unhappy；用 T 表示 Treatment——是否有狗，表示有狗，表示沒狗。表示如果你有狗，那么會(huì)觀察到的你養(yǎng)狗后是幸福指數(shù)。表示如果你沒狗，那么會(huì)觀察到的沒狗后的幸福指數(shù)。而在 Scenario 1 中，；在 Scenario 2 中，。這里的就是所說的 Potential Outcome。
形式化來說，potential outcome 是指如果你采取 treatment ，你的結(jié)果會(huì)是什么。potential outcome 與 observed outcome 不同之處在于，并非所有的 potential outcome 都已經(jīng)被觀察到，而是有可能被觀察到。
對于單獨(dú)的個(gè)體，individual treatment effect（ITE）獨(dú)立因果效應(yīng)被定義為：

只要人口中有一個(gè)以上的個(gè)體，就是一個(gè)隨機(jī)變量，因?yàn)椴煌膫€(gè)體會(huì)有不同的 potential outcome。相比之下，通常被視為非隨機(jī)變量，因?yàn)橄聵?biāo) 意味著我們將注意力限制在單個(gè)個(gè)體（在特定背景下），其 potential outcome 是確定性的。
ITE 是我們在因果推斷中關(guān)心的一個(gè)主要指標(biāo)。例如，在上面的情景 2 中，你會(huì)選擇養(yǎng)狗，因?yàn)轲B(yǎng)狗對你的幸福感的因果效應(yīng)是正的：。相反，在情景 1 中，你可能會(huì)選擇不養(yǎng)狗，因?yàn)轲B(yǎng)狗對你的幸福沒有因果效應(yīng)：。

2.2 因果推斷中的基本問題

因果推斷中的基本問題是，如果通過缺失數(shù)據(jù)來得到因果效應(yīng)。即我們不能同時(shí)觀察到和，那么我們就不能得到，就判斷不了因果效應(yīng)。這個(gè)問題是因果推斷所特有的，因?yàn)樵谝蚬茢嘀?，我們關(guān)心的是如何提出因果 claim，而這些 claim 是以 potential outcome 來界定的。
沒有（不能）觀察到的 potential outcome 被稱為 counterfactuals，因?yàn)樗鼈兣c事實(shí)（現(xiàn)實(shí)）相反。“potential outcome”有時(shí)又被稱為“counterfactual outcome”。但是在這本書中不會(huì)這么叫，作者認(rèn)為，一個(gè) potential outcome 在觀察到另一個(gè) potential outcome 之前不會(huì)成為反事實(shí)。被觀察到的 potential outcome 有時(shí)被稱為事實(shí) factual。請注意，在結(jié)果被觀察到之前，只有潛在結(jié)果，不存在反事實(shí)或事實(shí)。

2.3 如何解決基本問題

2.3.1 平均因果效應(yīng) & 缺失數(shù)據(jù)解釋

既然無法得到獨(dú)立因果效應(yīng)，那么能否得到平均因果效應(yīng)（Average Treatment E?ects，ATE）呢？理論上可以通過求期望來得到：

▲ 表2.1

但我們實(shí)際上如何計(jì)算 ATE 呢？讓我們看一下表 2.1 中的一些捏造的數(shù)據(jù)。我們把這個(gè)表作為整個(gè) population of interest。由于因果推斷的基本問題，導(dǎo)致有些缺失數(shù)據(jù)。表中所有的？都表示我們沒有觀察到這個(gè)結(jié)果。
從這張表中，我們很容易計(jì)算出 associational di?erence（通過 T 列和 Y 列）：

通過期望的線性運(yùn)算法則，ATE 可以寫成：

乍一看，你首先可能會(huì)直接得到

但其實(shí)這是錯(cuò)誤的做法。如果這個(gè)公示成立，則意味著“因果就是關(guān)聯(lián)”，這個(gè)觀點(diǎn)我們在第一章已經(jīng)反駁過了。

以第一章中穿鞋睡覺是否會(huì)導(dǎo)致第二天頭痛的例子為例

T=1 中，絕大多數(shù)都是喝了酒的，而 T=0 中絕大多數(shù)都是沒喝酒的。T=1 和 T=2 這兩個(gè) subgroub 是 uncomparable 的，E[Y|T=1] 肯定是要大于 E[Y(1)] 的，因?yàn)楹染撇艜?huì)更容易頭疼。
那么 comparable 的兩個(gè) group 長什么樣呢？就如下圖所示，這時(shí)候兩個(gè)式子之間就可以劃等號(hào)了。