機器學習真能產(chǎn)生智能決策嗎?
出品 | AI科技大本營(ID:rgznai100)
歷經(jīng)三年時間,我們在2022年完成了圖靈獎獲得者、加州大學洛杉磯分校計算機科學教授,美國國家科學院院士,被譽為“貝葉斯網(wǎng)絡之父”的朱迪亞·珀爾大作《因果論:模型、推理和推斷》。
這本書原版的第1版寫于2000年,開創(chuàng)了因果分析和推斷的新思想和新方法,一出版就得到廣泛的好評,促進了數(shù)據(jù)科學、人工智能、機器學習、因果分析等領(lǐng)域新的革命,在學術(shù)界產(chǎn)生了很大的影響。
后來又于2009年修訂出了第2版,內(nèi)容上結(jié)合當時因果研究的新發(fā)展,做了較大的改動。目前我們翻譯的這本書英文原版是在2009年出版的,到目前已經(jīng)有十多年了。
該書中文版的出版有利于廣大中國學者、學生和各領(lǐng)域的實踐人員了解和掌握因果模型、推理和推斷相關(guān)的內(nèi)容。特別是在當前統(tǒng)計學和機器學習流行的時代,如何實現(xiàn)從“數(shù)據(jù)擬合”到“數(shù)據(jù)理解”的轉(zhuǎn)變?如何在下一個十年里,從“所有知識都來自數(shù)據(jù)本身”這一目前占據(jù)主流的假設(shè)到一個全新的機器學習范式?是否會引發(fā)“第二次人工智能革命”?
正如圖靈獎授予珀爾時評價他的工作為“人工智能領(lǐng)域的基礎(chǔ)性貢獻,他提出概率和因果性推理演算法,徹底改變了人工智能最初基于規(guī)則和邏輯的方向?!?nbsp;我們期待這種范式能夠為機器學習帶來新的技術(shù)方向和前進動力,并且最終能夠在實際應用中發(fā)揮作用。
正如珀爾所說“數(shù)據(jù)擬合目前牢牢地統(tǒng)治著當前的統(tǒng)計學和機器學習領(lǐng)域,是當今大多數(shù)機器學習研究者的主要研究范式,尤其是那些從事連接主義、深度學習和神經(jīng)網(wǎng)絡技術(shù)的研究者?!?nbsp;這種以“數(shù)據(jù)擬合”為核心的范式在計算機視覺、語音識別和自動駕駛等應用領(lǐng)域取得了令人矚目的成功。但是,許多數(shù)據(jù)科學領(lǐng)域的研究人員也已經(jīng)意識到,從當前實踐效果來看,機器學習無法產(chǎn)生智能決策所需的那種理解能力。這些問題包括:穩(wěn)健性、可遷移性、可解釋性等。下面我們來看看例子。
數(shù)據(jù)統(tǒng)計靠譜嗎?
近年來自媒體上的很多人都會覺得自己是統(tǒng)計學家。因為“數(shù)據(jù)擬合”“所有知識都來自數(shù)據(jù)本身”為許多重大決策提供了數(shù)據(jù)統(tǒng)計依據(jù)。但是,在進行分析時,我們需要謹慎分析。畢竟,事情可能并不總是乍看之下!一個與我們生活息息相關(guān)的案例。10年前,某城市市中心的房價是8000元/平米,共銷售了1000萬平;高新區(qū)是4000元/平米,共銷售了100萬平;整體來看,該市的平均房價為7636元/平米。現(xiàn)在,市中心10000元/平米,但由于市中心的土地供應少了,只銷售了200萬平;高新區(qū)是6000元/平米,但由于新開發(fā)的土地變多了,銷售了2000萬平;整體來看,現(xiàn)在該市的平均房價為6363元/平米。因此,分區(qū)來看房價分別都漲了,但從整體上看,會有產(chǎn)生疑惑:為什么現(xiàn)在的房價反而跌了呢?
圖1 房價趨勢按照不同區(qū)域劃分后與總體結(jié)論相悖
我們知道這種現(xiàn)象叫作辛普森悖論。這些案例清楚地表明當我們沒有給予足夠的觀察變量時,我們是如何從統(tǒng)計數(shù)據(jù)中得到了完全錯誤的模型和結(jié)論。就這次新冠大流行而言,我們通常會獲得全國范圍的統(tǒng)計數(shù)據(jù)。如果我們按地區(qū)或市縣進行分組,我們可能會得出截然不同的結(jié)論。在全國范圍內(nèi),我們可以觀察到新冠病例數(shù)量在下降,盡管某些地區(qū)的病例數(shù)量會有所增加(這可能預示著下一波浪潮的開始)。如果存在差異很大的群體,例如人口差異很大的地區(qū),則也可能會發(fā)生這種情況。在國家數(shù)據(jù)中,人口密度較低地區(qū)的病例激增可能與人口稠密地區(qū)的病例下降相形見絀。
類似的基于“數(shù)據(jù)擬合”的統(tǒng)計問題比比皆是。比如下面兩個有趣的例子。
如果我們每年收集尼古拉斯·凱奇每年出演的電影數(shù)量和美國溺死人數(shù)的數(shù)據(jù),我們會發(fā)現(xiàn)這兩個變量高度相關(guān),數(shù)據(jù)擬合程度奇高。
圖2 尼古拉斯·凱奇每年出演的電影數(shù)與美國溺死的人數(shù)
如果我們收集每個國家人均牛奶銷售量和獲得諾貝爾獎人數(shù)的數(shù)據(jù),我們會發(fā)現(xiàn)這兩個變量高度相關(guān)。
圖3 人均牛奶消費量與諾貝爾獎人數(shù)
從我們?nèi)祟惖某WR認知來說,這些都是偽相關(guān),甚至是悖論。但從數(shù)學和概率論的角度來看,表現(xiàn)出偽相關(guān)或者悖論的案例無論從數(shù)據(jù)上還是計算上都是沒有問題的。如果有一些因果基礎(chǔ)的人都知道,發(fā)生這種情況是因為數(shù)據(jù)中隱藏著所謂的潛伏變量,即未被觀察到的混雜因子。
圖4 獨立變量導致了兩個變量之間偽相關(guān)
珀爾在《因果論》中給出了解決的范式,詳細分析和推導了以上問題,強調(diào)了因果與統(tǒng)計之間有著本質(zhì)的區(qū)別,雖然因果分析與推斷仍然是建立在統(tǒng)計學的語境上。珀爾提出了干預操作(算子)的基本計算模式,包括后門原則和具體的計算公式,這是當前對于因果關(guān)系最為數(shù)學化的描述?!耙蚬约跋嚓P(guān)的概念(例如隨機化、混雜、干預等)不是統(tǒng)計概念”,這是貫穿珀爾因果分析思想的一條基本原理,珀爾稱之為第一原理[2]。
那么,目前基于數(shù)據(jù)驅(qū)動的機器學習方法,特別是那些嚴重依賴于統(tǒng)計學方法的算法,學習到的模型極大可能也會出現(xiàn)半真半假、誤導性或者反轉(zhuǎn)性的結(jié)果。這是因為這些模型往往是基于觀察數(shù)據(jù)的分布情況進行學習,而非數(shù)據(jù)生成的機制。
機器學習亟需解決的三個問題
穩(wěn)健性:隨著深度學習方法的流行,計算機視覺、自然語言處理和語音識別等研究大量利用了最先進的深層神經(jīng)網(wǎng)絡結(jié)構(gòu)。但仍然長期存在這樣一個事實問題,即在現(xiàn)實世界中,我們采集到數(shù)據(jù)的分布通常很少是完整的,與實際世界中的分布可能不一致。在計算機視覺應用中,訓練集與測試集數(shù)據(jù)分布可能受到來自諸如像素差、壓縮質(zhì)量,或來自于攝像機位移、旋轉(zhuǎn)或角度等的影響。這些變量其實就是因果概念中的“干預”問題。由此,人們提出了簡單的算法來模擬干預,以專門測試分類和識別模型的泛化能力,如空間偏移、模糊、亮度或?qū)Ρ榷鹊淖兓⒈尘翱刂坪托D(zhuǎn),以及在多種環(huán)境中采集的圖像等。到目前為止,盡管我們利用數(shù)據(jù)增強、預訓練、自監(jiān)督學習等方法在穩(wěn)健性上取得了一定的進展,但對于如何解決這些問題還沒有明確的共識。有人認為這些修正可能是不夠的,在獨立同分布假設(shè)之外進行泛化不僅需要學習變量之間的統(tǒng)計關(guān)聯(lián),還需要學習潛在的因果模型,以明確數(shù)據(jù)生成的機制,并允許通過干預概念模擬分布變化。
可遷移性:嬰兒對物體的理解基于跟蹤隨時間變化表現(xiàn)一致的物體,這樣的方法可以讓嬰兒快速學習新的任務,因為他們對物體的知識和直觀理解可以重復使用。類似地,能夠高效地解決現(xiàn)實世界中的任務需要在新的場景中重用學習到的知識技能。研究已經(jīng)證明,學習了環(huán)境知識的機器學習系統(tǒng)效率更高,通用性更好。如果我們將現(xiàn)實世界模型化,許多模塊在不同的任務和環(huán)境中表現(xiàn)出相似的行為。因此,面對新環(huán)境或新任務,人類或者機器可能只需要調(diào)整其內(nèi)部表示中的幾個模塊。當學習因果模型時,由于大多數(shù)知識(即模塊)可以在無須進一步訓練的情況下重復使用,從而只需要較少的樣本以適應新環(huán)境或新任務。
可解釋性:可解釋性是一個微妙的概念,不能僅僅使用布爾邏輯或統(tǒng)計概率的語言完全描述,它需要額外的干預概念,甚至是反事實的概念。因果關(guān)系中的可操縱性定義關(guān)注的是這樣一個事實,即條件概率(“看到人們打開雨傘表明正在下雨”)無法可靠地預測主動干預的結(jié)果(“收起雨傘并不能阻止下雨”)。因果關(guān)系被視為推理鏈的組成部分,它可以為與觀察到的分布相去甚遠的情況提供預測,甚至可以為純粹假設(shè)的場景提供結(jié)論。從這個意義上說,發(fā)現(xiàn)因果關(guān)系意味著獲得可靠的知識,這些知識不受觀察到的數(shù)據(jù)分布和訓練任務的限制,從而為可解釋的學習提供明確的說明。
因果學習建模的三個層次
具體地說,基于統(tǒng)計模型的機器學習模型只能對相關(guān)關(guān)系進行建模,而相關(guān)關(guān)系往往會隨著數(shù)據(jù)分布的變化而變化;而因果模型基于因果關(guān)系建模,則抓住了數(shù)據(jù)生成的本質(zhì),反映了數(shù)據(jù)生成機制的關(guān)系,這樣的關(guān)系更加穩(wěn)健,具有分布外泛化的能力。比如,在決策理論中,因果關(guān)系和統(tǒng)計之間的區(qū)別更加清楚。決策理論中有兩類問題,一類是已知當前環(huán)境,擬采取干預,預測結(jié)果。另一類是已知當前環(huán)境和結(jié)果,反推原因。前者稱為求果問題,后者稱為溯因問題[3]。
在獨立同分布條件下的預測能力
統(tǒng)計模型只是對觀察到的現(xiàn)實世界的粗淺描述,因為它們只關(guān)注相關(guān)關(guān)系。對于樣本和標簽,我們可以通過估計來回答這樣的問題:“這張?zhí)囟ǖ恼掌杏幸恢还返母怕适嵌嗌??”“已知一些癥狀,心力衰竭的概率是多少?”。這樣的問題是可以通過觀察足夠多的由所生成的獨立同分布數(shù)據(jù)來回答的。盡管機器學習算法可以把這些事做得很好,但是準確的預測結(jié)果對于我們的決策是不夠,而因果學習為其提供了一種有益的補充。就前面的例子來說,尼古拉斯·凱奇出演電影的頻率和美國溺亡率正相關(guān),我們的確可以訓練一個統(tǒng)計學習模型通過尼古拉斯·凱奇出演電影的頻率來預測美國溺亡率,但顯然這兩者并沒有什么直接的因果關(guān)系。統(tǒng)計模型只有在獨立同分布的情況下才是準確的,如果我們做任何的干預來改變數(shù)據(jù)分布,就會導致統(tǒng)計學習模型出錯。
在分布偏移/干預下的預測能力
我們進一步討論干預問題,它更具挑戰(zhàn)性,因為干預(操作)會使我們跳出統(tǒng)計學習中獨立同分布的假設(shè)。繼續(xù)用尼古拉斯·凱奇的例子,“今年增加邀請尼古拉斯·凱奇出演電影的數(shù)量會增加美國的溺亡率嗎?”就是一個干預問題。顯然,人為的干預會使得數(shù)據(jù)分布發(fā)生變化,統(tǒng)計學習賴以生存的條件就會被打破,所以它會失效。另一方面,如果我們可以在存在干預的情況下學習一個預測模型,那么這有可能讓我們得到一個在現(xiàn)實環(huán)境中對分布變化更加穩(wěn)健的模型。實際上,這里所謂的干預并不是什么新鮮事,很多事情本身就是隨時間變化的,例如人的興趣偏好,或者模型的訓練集與測試集本身在分布上就存在不匹配的現(xiàn)象。我們前面已經(jīng)提到,神經(jīng)網(wǎng)絡的穩(wěn)健性已經(jīng)獲得了越來越多的關(guān)注,成為一個與因果推斷緊密連接的研究話題。在分布偏移的情況下預測不能只局限于在測試集上取得高準確率,如果我們希望在實際應用中使用機器學習算法,那么我們必須相信在環(huán)境條件改變的情況下,模型的預測結(jié)果也是準確的。實際應用中的分布偏移類別可能多種多樣,一個模型僅僅在某些測試集上取得好效果,不能代表我們可以在任何情況下都能夠信任這個模型,這些測試集可能只是恰好符合這些測試集樣本的分布。為了讓我們可以在盡可能多的情況下信任預測模型,就必須采用具有回答干預問題能力的模型,至少僅僅使用統(tǒng)計學習模型是不行的。
回答反事實問題的能力
反事實問題涉及推理事情為什么會發(fā)生,想象實施不同行為所帶來的后果,并由此可以決定采取何種行為來達到期望的結(jié)果。回答反事實問題比干預更加困難,但也是對于AI非常關(guān)鍵的挑戰(zhàn)。如果一個干預問題是“如果我們現(xiàn)在讓一個病人有規(guī)律地進行鍛煉,那么他心力衰竭的概率會如何變化?”,對應的反事實問題就是“如果這個已經(jīng)發(fā)生心力衰竭的病人一年前就開始鍛煉,那他還會得心力衰竭嗎?”顯然回答這樣的反事實問題對于強化學習是很重要的,它們可以通過反思自己的決策,制定反事實假說,再通過實踐驗證,就像我們的科學研究一樣。
因果學習應用
最后,我們來看看如何在各個領(lǐng)域上應用因果學習。2021年諾貝爾經(jīng)濟學獎授予了約書亞·安格里斯特(Joshua D.Angrist)和吉多·因本斯(Guido W.Imbens),表彰“他們對因果關(guān)系分析的方法論”貢獻。他們研究了因果推斷在實證勞動經(jīng)濟學中的應用。諾貝爾經(jīng)濟學獎評選委員認為“自然實驗(隨機試驗或者對照試驗)有助于回答重要問題”,但如何“使用觀測數(shù)據(jù)回答因果關(guān)系”更具有挑戰(zhàn)性。經(jīng)濟學中的重要問題是因果關(guān)系問題。如移民如何影響當?shù)厝说膭趧恿κ袌銮熬??讀研究生能夠影響收入增加嗎?最低工資對技術(shù)工人的就業(yè)前景有何影響?這些問題很難回答,因為我們?nèi)狈φ_的反事實解釋方法。
自從20世紀70年代以來,統(tǒng)計學家就發(fā)明了一套計算“反事實”的框架,以揭示兩個變量之間的因果效應。經(jīng)濟學家又在此基礎(chǔ)上進一步發(fā)展了斷點回歸、雙重差分、傾向得分等方法,并且大量地應用在各種經(jīng)濟政策問題的因果性研究上。從6世紀的宗教文本到2021年的因果機器學習,包括因果自然語言處理,我們可以使用機器學習、統(tǒng)計學和計量經(jīng)濟學來模擬因果效應。經(jīng)濟和其他社會科學的分析主要圍繞因果效應的估計,即一個特征變量對于結(jié)果變量的干預效應。實際上,在大多數(shù)情況下,我們感興趣的事情是所謂的干預效應。干預效應是指干預或者治療對結(jié)果變量的因果影響。比如在經(jīng)濟學中,分析最多的干預效應之一是對企業(yè)進行補貼對企業(yè)收入的因果影響。為此,魯賓(Rubin)提出了潛在結(jié)果框架(potential outcome framework)。
盡管經(jīng)濟學家和其他社會科學家對因果效應的精確估計能力強于預測能力,但他們對機器學習方法的預測優(yōu)勢也十分感興趣。例如,精確的樣本預測能力或處理大量特征的能力。但正如我們所見到的,經(jīng)典機器學習模型并非旨在估計因果效應,使用機器學習中現(xiàn)成的預測方法會導致對因果效應的估計存在偏差。那么,我們必須改進現(xiàn)有的機器學習技術(shù),以利用機器學習的優(yōu)勢來持續(xù)有效地估計因果效應,這就促使了因果機器學習的誕生!
目前,根據(jù)要估計的因果效應類型,因果機器學習可以大致分為兩個研究方向。一個重要的方向是改進機器學習方法以用于無偏且一致的平均干預效應估計。該研究領(lǐng)域的模型試圖回答以下問題:客戶對營銷活動的平均反應是什么?價格變化對銷售額的平均影響是多少?此外,因果機器學習研究的另一條發(fā)展路線是側(cè)重于改進機器學習方法以揭示干預效應的特異性,即識別具有大于或小于平均干預效應的個體亞群。這類模型旨在回答以下問題:哪些客戶對營銷活動的反應最大?價格變化對銷售額的影響如何隨著顧客年齡的變化而變化?
除了這些活生生的例子,我們還可以感覺到因果機器學習引起數(shù)據(jù)科學家興趣的一個更深刻的原因是模型的泛化能力。具備描述數(shù)據(jù)之間因果關(guān)系的機器學習模型可泛化到新的環(huán)境中,但這仍然是目前機器學習的最大挑戰(zhàn)之一。
珀爾更深層次地分析這些問題,認為如果機器不會因果推理,我們將永遠無法獲得達到真正人類水平的人工智能,因為因果關(guān)系是我們?nèi)祟愄幚砗屠斫庵車鷱碗s世界的關(guān)鍵機制。珀爾在《因果論》中文版的序中寫到“在下一個十年里,這個框架將與現(xiàn)有的機器學習系統(tǒng)相結(jié)合,從而可能引發(fā)‘第二次因果革命’。我希望這本書也能使中國讀者積極參與到這一場即將到來的革命之中。”
參考文獻:[1] 珀爾. 因果論:模型、推理和推斷(原書第2版)[M]. 劉禮,等譯. 北京:機械工業(yè)出版社,2022.[2] 劉禮,吳飛,李廉. 因果關(guān)系學習的思維取向和概念分析[J]. 中國大學教學,2021(10):35-42.[3] WANG A G, LIU L, YANG J Y, LI L, Causality Fields in Nonlinear Causal Effect Analysis [J]. Frontiers of Information Technology & Electronic Engineering, 2022,23(8):1277-1286.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。