公開反駁!數(shù)據(jù)科學(xué)家直指DeepMind,“強化學(xué)習(xí)無法實現(xiàn)通用人工智能”
以下文章來源于學(xué)術(shù)頭條 ,作者學(xué)術(shù)頭條
今年 6 月,DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授 David Silver 及其合作者在一篇題為 “ Reward is enough ” 的論文中指出,人工智能及其相關(guān)能力不是通過制定和解決復(fù)雜問題而產(chǎn)生的,而是通過堅持一個簡單而強大的原則:獎勵最大化。
Silver 等人認為,簡單的獎勵是豐富環(huán)境中的代理人開發(fā)多屬性智能的全部需要,而這種多屬性智能正是實現(xiàn)通用人工智能所需的全部。
但很顯然,并不是所有人都同意這一觀點。
近日,數(shù)據(jù)科學(xué)家 Herbert Roitblat 就針對 DeepMind 團隊提出的這一觀點提出了反駁意見。在他看來,雖然 Silver 等人的說法聽起來像是一個大膽的主張,但事實上卻很模糊,甚至幾乎毫無意義。
值得一提的是,Roitblat 也是 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書的作者。
產(chǎn)生智能的前提存在誤導(dǎo)
據(jù)了解,第一個試圖證明單一學(xué)習(xí)機制就足夠的重要項目是 B.F. Skinner 的行為主義版本,以他的 Verbal Behavior 一書為代表。這本書受到了美國哲學(xué)家 Noam Chomsky(1959 年)的嚴厲批評,Chomsky 稱 Skinner 試圖解釋人類的語言產(chǎn)生是 “戲劇表演科學(xué)” 的例子;第二個主要建議是由 Rumelhart 和 McClelland(1986年)提出的側(cè)重于英語動詞過去式學(xué)習(xí)的建議,但遭到了 Lachter 和 Bever(1988年)的嚴厲批評,認為他們通過選擇的特定方式來表示他們的聯(lián)結(jié)主義系統(tǒng)正在學(xué)習(xí)轉(zhuǎn)換的單詞的音位特性,其中包含使系統(tǒng)成功的特定信息。
圖 | 以行為主義研究而聞名的美國心理學(xué)家 Burrhus Frederic Skinner(來源:Wikipedia)
之所以前面的這兩次嘗試都失敗了,是因為他們屈服于確認偏見。正如 Silver 等人所做的那樣,他們報告了與假設(shè)相一致的數(shù)據(jù),而沒有考慮可能的替代性解釋,他們將模棱兩可的數(shù)據(jù)解釋為支持性的。這三個項目都沒有考慮到他們模型中的隱性假設(shè),如果沒有這些隱含的 TRICS(Lachter 和 Bever 對 "其關(guān)鍵假設(shè)的表征" 的稱呼),這些系統(tǒng)中就不會存在“智能”。
Silver 等人更進一步,還提出它足以達到智能,特別是足以解釋通用人工智能。Silver 等人的論點可以歸納為以下三個命題:
獎勵最大化足以產(chǎn)生智能。“獎勵最大化的通用目標(biāo)足以驅(qū)動表現(xiàn)出自然和人工智能中所研究的大多數(shù)(如果不是全部)能力的行為。”
智力是實現(xiàn)目標(biāo)的能力。“智力可以被理解為實現(xiàn)目標(biāo)的靈活能力?!?/p>
成功是通過最大化獎勵來衡量的。“因此,成功是通過最大化獎勵來衡量的?!?/p>
簡而言之,他們提出智能的定義是使獎勵最大化的能力,同時他們用獎勵的最大化來解釋智力的出現(xiàn)。繼 17 世紀(jì)作家莫里哀(Molière)之后,一些哲學(xué)家將這種論證稱為 virtus dormativa(一種誘導(dǎo)睡眠的美德)。當(dāng)被要求解釋為什么鴉片會導(dǎo)致睡眠時,莫里哀在 Imaginary Invalid 中的單身漢(bachelor)回答說,它有安眠的屬性(一種誘導(dǎo)睡眠的美德)。當(dāng)然,這只是對正在尋求解釋的屬性的命名。獎勵最大化在 Silver 的假設(shè)中起著類似的作用。實現(xiàn)目標(biāo)既是智能的過程,也解釋了智能的過程。
圖 | “Reward is enough” 的假設(shè),假定智力及其相關(guān)能力可以被理解為在其環(huán)境中行動的主體促進獎勵的最大化(來源:ScienceDirect)
之所以 Chomsky 批評 Skinner 的方法,是因為該方法假設(shè)任何表現(xiàn)出來的行為都必須有一些獎勵。如果有人看著一幅畫說 "荷蘭語",Skinner 的分析假設(shè)是,這幅畫的某些特征一定會因為“荷蘭語”的表達而受到獎勵。但是,Chomsky 認為,這個人可以說任何其他的東西,包括 "彎曲的"、"可怕的"或 "讓我們吃點午餐"。Skinner 無法指出導(dǎo)致這些言論的具體特征,也不能提供任何證據(jù)來證明該言論在該特征存在的情況下曾被獎勵過。
引用一位 18 世紀(jì)法國作家 Voltaire 的話說,他的博士 Pangloss 在 Candide 中曾這樣說:"請注意,鼻子的形成是為了承受眼鏡,因此我們有了眼鏡。" 一定有一個問題可以通過任何特征來解決,在這種情況下,他聲稱鼻子的形成只是為了讓眼鏡可以被托起。Pangloss 還表示:"可以證明......事物不可能不是本來的樣子;因為一切都是為了一個目的而創(chuàng)造的,一切都必然是為了最好的目的。"
智能的誘發(fā)存在多種影響因素
Silver 等人在論文中寫道:“當(dāng)與智能相關(guān)的能力作為獎勵最大化的單一目標(biāo)的解決方案出現(xiàn)時,這實際上可能提供了一個更深入的理解,因為它解釋了為什么這種能力會出現(xiàn)。相反,當(dāng)每一種能力被理解為其自身專門目標(biāo)的解決方案時,為了關(guān)注該能力的作用,為什么的問題就被繞開了?!?/p>
而 Roitblat 的觀點是:對 Silver 等人來說,這個目的就是一個解決問題的方法,而智能的學(xué)習(xí)正是為了這個目的,但我們不一定知道這個目的是什么,也不知道是什么環(huán)境特征誘發(fā)了它,但一定有什么東西。
Gould 和 Lewontin (1979) 很好地利用 Pangloss 博士批評他們所謂的進化生物學(xué)中的 “適應(yīng)主義者( adaptationist )” 或“過分樂觀者( Panglossian )”范式。適應(yīng)主義的核心原則是,任何特征都必須有一個適應(yīng)性的解釋。
他們指出,威尼斯圣馬可大教堂的高裝飾拱門(兩個拱門相交處近似三角形形狀)是一個建筑特征,源于選擇設(shè)計四個拱門的大教堂,而不是建筑設(shè)計的驅(qū)動力。拱門的選擇決定了壁爐的位置,而不是壁爐的位置決定拱門。一旦建筑師選擇了拱門,拱肩是必要的,而且可以進行裝飾。Gould 和 Lewontin 說:“每個扇形拱頂都必須有一系列沿拱頂中線的開放空間,即扇形兩側(cè)在支柱之間相交的地方。由于這些空間必須存在,所以它們經(jīng)常被用來達到巧妙的裝飾效果。”
圖 | 威尼斯圣馬可大教堂的拱肩(來源:Michael Vadon under Creative Commons license)
Gould 和 Lewontin 給出了另一個例子,對阿茲臺克人祭祀同類相食的適應(yīng)性解釋。阿茲特克人從事活人祭祀。從適應(yīng)主義的角度解釋是,祭祀制度是解決肉類長期短缺問題的方法。受害者的四肢經(jīng)常被社區(qū)中的某些地位高的成員吃掉。這種 “解釋” 認為,構(gòu)成這一精心設(shè)計的儀式性謀殺的神話、象征和傳統(tǒng)系統(tǒng)是對肉的需求的結(jié)果,而事實可能恰恰相反。每一位新國王都必須超越他的上一任,為更多的人獻上越來越精致的祭品。這種做法似乎使阿茲特克帝國的經(jīng)濟資源日益緊張。其他蛋白質(zhì)來源很容易獲得,只有某些已經(jīng)擁有足夠食物的特權(quán)人士才會吃犧牲的受害者的某些部分。如果目標(biāo)是讓饑餓的人吃到肉,那么人們會期望他們能夠更有效地利用受害者,并更廣泛地傳播食物來源。對肉的需求不太可能成為人類犧牲的原因;相反,它似乎是其他文化習(xí)俗的結(jié)果,這些習(xí)俗實際上對阿茲特克文明的生存不適應(yīng)。
引用 Silver 等人迄今為止的論點,如果目標(biāo)是成為富人,那么只要積累大量的金錢就足夠了。用積累金錢就可以用成為富人的目標(biāo)來解釋,成為富人的定義是積累了大量的金錢。強化學(xué)習(xí)沒有解釋一個人如何去積累金錢或為什么這應(yīng)該是一個目標(biāo)。他們認為,這些都是由環(huán)境決定的。
Silver 等人認為,如果一個智能體可以不斷調(diào)整其行為以提高其累積獎勵,那么其環(huán)境反復(fù)要求的任何能力最終都必須在智能體的行為中產(chǎn)生。
在Silver 等人在自然智能和通用人工智能之間進行了類比,并指出 “動物的經(jīng)驗流足夠豐富和多樣的,它可能需要一種靈活的能力來實現(xiàn)各種各樣的子目標(biāo)(例如覓食、戰(zhàn)斗或逃跑),以便成功地最大化其整體獎勵(例如饑餓或繁殖)。類似地,如果一個人工智能代理的經(jīng)驗流足夠豐富,那么許多目標(biāo)(例如電池壽命或生存)可能隱含地需要實現(xiàn)同樣廣泛的子目標(biāo)的能力,因此獎勵的最大化應(yīng)該足以產(chǎn)生一種通用的人工智能?!?/p>
Roitblat 反駁道,只靠獎勵本身其實是不夠的,至少環(huán)境也發(fā)揮了作用。但適應(yīng)的內(nèi)容遠不止這些。適應(yīng)需要一個變異性的來源,從中可以選擇出某些特征。進化生物學(xué)中這種變異的主要來源是突變和重組。任何生物體的繁殖都涉及到將基因從父母那里復(fù)制到孩子身上。復(fù)制的過程并不完美,并且會出現(xiàn)錯誤。其中許多錯誤是致命的,但也有一些不是,然后可用于自然選擇。在有性繁殖的物種中,每一個親本都貢獻了其基因的一個副本(以及任何潛在的錯誤),這兩個副本允許通過重組產(chǎn)生額外的變異性,一些來自一個親本的基因,一些來自另一個親本的基因傳遞給下一代。
圖 | 英國生物學(xué)家 Dawkins(來源:Flickr)
獎勵是選擇。僅此而已,這是不夠的。正如 Dawkins 所指出的,進化獎勵是將特定基因傳遞給下一代。獎勵是在基因?qū)用妫皇窃谏矬w或物種層面。任何能增加基因從一代傳給下一代的機會的東西,都是對這種獎賞的調(diào)解,但請注意,基因本身并沒有能力成為智能。
除了獎勵和環(huán)境,其他因素也在進化和強化學(xué)習(xí)中發(fā)揮著作用。獎勵只能從現(xiàn)有的原材料中進行選擇。如果我們將一只老鼠扔進一個洞穴,它就不會像蝙蝠一樣學(xué)會飛行和使用聲納。積累足夠的突變需要多代甚至數(shù)百萬年的時間,即便如此,也不能保證它能進化出與蝙蝠一樣的解決洞穴問題的方法。強化學(xué)習(xí)是一個純粹的選擇性過程。強化學(xué)習(xí)是提高行動概率的過程,這些行動共同構(gòu)成了處理某種環(huán)境的政策。這些行動必須已經(jīng)存在,才能被選中。至少就目前而言,這些行動是由進化中的基因和人工智能中的程序設(shè)計師提供的。
針對這一問題,Silver 等人在論文中也提到,在不同的環(huán)境中實現(xiàn)不同的獎勵最大化可能會導(dǎo)致不同的、強大的智能形式,每一種智能都會表現(xiàn)出自己令人印象深刻的、但又無法比擬的一系列能力。一個好的獎勵最大化的代理將利用其環(huán)境中存在的任何元素,但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。
理論與現(xiàn)實的結(jié)合
正如 Lachter 和 Bever 所指出的那樣,學(xué)習(xí)并不像 Silver 等人所聲稱的那樣從 "白板"( Tabula rasa )開始,而是從一組代表性的承諾開始。Skinner 的大部分理論都基于動物的強化學(xué)習(xí),尤其是鴿子和老鼠。他和許多其他研究人員在嚴酷的環(huán)境中研究了它們。
對于老鼠來說,那是一個房間,里面有一個供老鼠按壓的杠桿和一個提供獎勵的喂食器。老鼠除了在短距離內(nèi)徘徊并接觸杠桿外,沒有什么其他可以做的。鴿子也在一個包含啄食鍵(通常是墻上的一個有機玻璃圈,可以被照亮)和一個提供獎勵的谷物喂食器的環(huán)境中接受了類似的測試。在這兩種情況下,動物都有一種預(yù)先存在的偏見,即以行為學(xué)家希望的方式作出反應(yīng)。事實證明,即使沒有獎勵,老鼠也會接觸杠桿,鴿子也會在黑暗的盒子里啄食發(fā)光的鑰匙。這種以理想方式做出反應(yīng)的傾向使得訓(xùn)練動物變得容易,研究者可以不費吹灰之力地研究獎勵模式的影響。但多年后人們才發(fā)現(xiàn),選擇杠桿或啄食鑰匙并不只是一種任意的便利,而是一種未被承認的 "幸運選擇"。
當(dāng) Rumelhart 和 McClelland 建立他們的過去式學(xué)習(xí)者時,同樣未被承認的幸運選擇發(fā)生了。他們選擇的表征恰好反映了他們希望他們的神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)的信息。這不是單純依靠一般學(xué)習(xí)機制的 “白板”。Silver 等人在題為 “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” 的論文中指出,在開發(fā) AlphaZero 時也很 "幸運",他們在本文中提到了這一點。他們在提出這一主張的同時,對 AlphaZero 進行了更詳細的說明。
他們的結(jié)果表明,一個通用的強化學(xué)習(xí)算法可以在沒有特定領(lǐng)域的人類知識或數(shù)據(jù)的情況下學(xué)習(xí)“白板”,同一算法在多個領(lǐng)域的成功學(xué)習(xí)證明了這一點,在多個具有挑戰(zhàn)性的游戲中表現(xiàn)出了超人的表現(xiàn)。
他們還指出,AlphaZero 用深度神經(jīng)網(wǎng)絡(luò)、通用強化學(xué)習(xí)算法和通用樹形搜索算法取代了傳統(tǒng)游戲程序中使用的手工知識和特定領(lǐng)域的增強功能。
他們不包括明確的針對游戲的計算指令,但確實包括了人類對解決問題的重大貢獻。例如,他們的模型包括一個 "神經(jīng)網(wǎng)絡(luò) fθ(s),[它]將棋盤位置 s 作為輸入,并輸出一個移動概率矢量"。換句話說,他們并不期望計算機知道它在玩游戲,或者游戲是通過輪流進行的,或者它不能只是把圍棋棋子堆成一堆或把棋盤扔在地上。他們還提供了許多其他的約束條件,例如,讓機器與自己對弈。他們使用的樹狀表示法曾經(jīng)是代表游戲玩法的巨大創(chuàng)新。樹的分支對應(yīng)于可能的移動范圍,沒有其他操作是可能的。計算機還被提供了一種使用蒙特卡洛樹形搜索算法搜索樹的方法,并且提供了游戲的規(guī)則。
那么,AlphaZero 遠不是一個“白紙黑字”,它被賦予了大量的先驗知識,這大大限制了它可以學(xué)習(xí)的可能范圍。因此,即使在學(xué)習(xí)圍棋的背景下,也不清楚 "獎勵是足夠的"意味著什么。要使獎勵足夠,它就必須在沒有這些限制的情況下發(fā)揮作用。此外,目前還不清楚,即使是一個一般的游戲系統(tǒng),是否也能算作在不太受約束的環(huán)境中進行一般學(xué)習(xí)的一個例子。
AlphaZero 對計算智能作出了重大貢獻,但它的貢獻主要設(shè)計它的人類智能,識別其運行的約束,并將玩游戲的問題減少到定向樹搜索。此外,它的約束條件甚至不適用于所有游戲,而只適用于有限類型的游戲。它只能玩某些類型的棋盤游戲,這些棋盤游戲的特征是樹搜索,學(xué)習(xí)者可以將棋盤位置作為輸入并輸出一個概率向量。沒有證據(jù)表明它甚至可以學(xué)習(xí)另一種棋盤游戲,比如大富翁,甚至 Parchisi。
在沒有約束的情況下,獎勵并不能解釋任何東西。AlphaZero 不是所有種類學(xué)習(xí)的模型,當(dāng)然也不是通用智能的模型。
Silver 等人將一般智能視為一個定量問題。"通用智能,即人類和其他動物所擁有的那種智能,可以被定義為在不同背景下靈活地實現(xiàn)各種目標(biāo)的能力。"
需要多大的靈活性?多大范圍的目標(biāo)?如果我們有一臺電腦,可以交替地下圍棋、跳棋和國際象棋,這仍然不構(gòu)成通用智能。即使我們增加了另一種游戲,即象棋,我們?nèi)匀粨碛型耆嗤挠嬎銠C,它仍然可以通過找到一個模型來工作,該模型“以棋盤位置 s 作為輸入并輸出移動概率向量”。計算機完全沒有能力接受任何其他的 "想法" 或解決任何無法以這種特定方式表示的任何問題。
通用人工智能中的 "通用" 不是以它可以解決不同問題的數(shù)量為特征,而是以解決多種類型問題的能力為特征。一個通用智能代理必須能夠自主地制定自己的表述,它必須創(chuàng)造自己的方法來解決問題,選擇自己的目標(biāo)、表征、方法等等。到目前為止,這都是人類設(shè)計師的職權(quán)范圍,他們將問題簡化為計算機可以通過調(diào)整模型參數(shù)解決的形式。除非我們能夠消除對人類構(gòu)建問題的依賴,否則我們無法實現(xiàn)通用智能。強化學(xué)習(xí),作為一個選擇性的過程,無法做到這一點。
正如行為主義和認知主義之間的對抗,以及反向傳播是否足以學(xué)習(xí)語言學(xué)的過去式轉(zhuǎn)換的問題一樣,這些簡單的學(xué)習(xí)機制只有在我們忽略了其他往往未被承認的限制因素所帶來的沉重負擔(dān)時才顯得充分。獎勵在可用的替代方案中進行選擇,但它們無法創(chuàng)造這些替代物。只要我們不仔細觀察這些現(xiàn)象,只要我們假設(shè)一定有某種獎勵能強化某種行動,行為主義的獎勵就能發(fā)揮作用。善于事后“解釋”任何觀察到的行為,但在實驗室之外,它們無助于預(yù)測哪些行動即將發(fā)生。這些現(xiàn)象與獎勵是一致的,但如果認為它們是由獎勵引起的,那就錯了。
Roitblat 在 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書中解釋了為什么所有當(dāng)前包括強化學(xué)習(xí)在內(nèi)的人工智能算法,都需要仔細制定人類創(chuàng)建的問題和表示。他表示,一旦建立了模型及其內(nèi)在表示,優(yōu)化或強化就可以指導(dǎo)其進化,但這并不意味著強化就足夠了。同樣,Roitblat 補充說,該論文沒有就如何定義強化學(xué)習(xí)的獎勵、動作和其他元素提出任何建議。與 Silver 等人的說法相反,他認為獎勵是不夠的。
參考資料:
https://venturebeat.com/2021/07/10/building-artificial-intelligence-reward-is-not-enough/
https://www.sciencedirect.com/science/article/pii/S0004370221000862
https://mp.weixin.qq.com/s/5M1kuNp9z83yJkjKTE9m3g
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。