色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > DeepMind VS Meta:實現(xiàn)納什均衡理性最優(yōu)解,還是多人非零和博弈算法更強大?

          DeepMind VS Meta:實現(xiàn)納什均衡理性最優(yōu)解,還是多人非零和博弈算法更強大?

          發(fā)布人:AI科技大本營 時間:2022-12-23 來源:工程師 發(fā)布文章
          DeepMind被谷歌收購之后,一直開啟著“敗家燒”的模式。不過也著實“燒”出了不少成果。曾經(jīng)大火的AlphaGo,編程機器人系統(tǒng)Alpha Code,智能體Gato……都是讓業(yè)界認(rèn)可的手筆。不過,盡管在AI技術(shù)上全面開花,DeepMind仍沒有放棄曾經(jīng)的看家本領(lǐng)——AI棋牌競技。隨著DeepNash的推出,棋牌界出現(xiàn)又一亂入者,因為它超越人類專業(yè)棋手的技能,登上了近期的《Nature》雜志。
          而它或?qū)蚆eta家的AI產(chǎn)品Cicero展開競技,究竟是怎么回事呢?


          編譯 & 整理 | 楊陽
          出品 | AI科技大本營記得豆瓣高分電影《美麗心靈》中的約翰·納什嗎?
          作為獲得諾貝爾經(jīng)濟學(xué)獎的數(shù)學(xué)家,納什在博弈論、微分幾何學(xué),以及偏微分方程等各個領(lǐng)域都作出卓越貢獻。為表彰他在非合作博弈理論中對均衡(納什均衡)的開創(chuàng)性分析,1994年瑞典中央****授予納什諾貝爾經(jīng)濟學(xué)獎。
          納什均衡在社科中的應(yīng)用可謂成功,而在科技領(lǐng)域中,也經(jīng)常引用博弈論的邏輯來進行技術(shù)實現(xiàn),比如,通過密碼學(xué)和博弈論的結(jié)合實現(xiàn)大數(shù)據(jù)安全。當(dāng)下,這一邏輯也開始應(yīng)用在AI的算法上。DeepNash——DeepMind制造的最新款人工智能,它名字中的“Nash”即為紀(jì)念納什而命名。在AlphaGo之后,谷歌已降低在棋牌領(lǐng)域的關(guān)注,之所以推出DeepNash,在于借鑒納什均衡的邏輯設(shè)定基礎(chǔ)上,這款A(yù)I模型得以在西洋陸軍棋Stratego(策略)中擊敗專業(yè)玩家,這比在國際象棋、圍棋和****的比賽中擊敗人類更加困難。DeepNash是怎么做到的呢?圖片超越圍棋的走法量,訴求“無模型”和強化學(xué)習(xí)
          相較其他棋牌游戲,Stratego在規(guī)則上就包含了更多不確定性,包括玩家之間的信息非對稱。比如,象棋和圍棋的牌面和走位都是公開的,但Stratego的牌面卻是看不到的,這點和玩****一樣。另一方面,相較于圍棋只有一個初始定位,德州****有106個,而Stratego有驚人的超過1066個可以選擇的起始點。要知道,1066這個量級已經(jīng)超過了宇宙中所有星辰的總量。

          圖片

          在博弈樹的算法統(tǒng)計量上,Stratego可能的走法達到不可思議的10535種,圍棋的這一數(shù)量為10360
          信息非對稱、路徑解極多,極度復(fù)雜性意味著通過通用的“蒙特卡洛樹”模型玩轉(zhuǎn)Stratego并不可行。DeepNash的研究者之一,DeepMind研究員Perolat表示:“那些適用于****的算法在Stratego中是完全行不通的,可能的結(jié)果量級太過龐大,因而非常復(fù)雜,信息的處理需要更為完備的方法?!?/span>

          最終,團隊找到的方法是“無模型”強化算法,意味著在任何模型都無法實現(xiàn)精確模擬的情況下,讓DeepNash就像一個嬰兒或者一張白紙一樣進行從0開始的積累。但這使得預(yù)測變得困難,甚至完全不可能。

          為了解決這個問題,團隊使用了深度強化學(xué)習(xí)為DeepNash提供動力源,目的是找到最優(yōu)的納什均衡。

          圖片

          運用納什均衡,在信息不對稱中訴諸最優(yōu)解強化學(xué)習(xí)算法如同“鋼鐵俠”,可以處理大規(guī)模數(shù)據(jù)量的問題,但牌面的信息不對稱又該如何解決?該DeepNash中“Nash”發(fā)揮作用了。納什均衡,也是非合作博弈均衡分析,社會學(xué)和經(jīng)濟學(xué)專業(yè)學(xué)生對這個名詞非常熟悉。其中最著名的實驗就是后來經(jīng)常應(yīng)用在犯罪心理中的囚徒困境。這一理論給出的現(xiàn)實命題是:對于處于非合作博弈中的雙方,無論對方如何選擇,當(dāng)事一方只有一種確定的策略對自己來說是最優(yōu)解,因而兩方都會選擇自己的最優(yōu),最后達成彼此最優(yōu)下的博弈均衡。比如,兩個共同犯罪的嫌疑人分別接受審訊,如果雙方都不坦白,兩人各自獲刑一年;其中只有一方坦白,坦白的無罪釋放,不坦白的獲刑十年;而如果雙方都坦白,各獲刑五年。在這個假想實驗中,都不坦白才是整體最優(yōu)。然而,對于兩位囚徒來說,肯定都希望無罪釋放,而無論對方是否坦白,自己坦白都是理性最優(yōu)解,所以最終的結(jié)果就是各獲刑五年。如果將納什均衡的邏輯放到DeepNash的算法設(shè)定中,游戲中互相看不到牌面的雙方就像囚徒困境中無法串通的兩個囚徒,彼此是非合作博弈。在信息不確定的情況下,只有走無論對方出什么牌“我”都是最優(yōu)選的牌,才能確保在多輪博弈中獲勝。圖片DeepNash獲得同類競技97%勝率納什均衡和加上強化學(xué)習(xí),最終達成均衡下的最優(yōu)解:通過“每位玩家獲得任何收益都會導(dǎo)致對手損失”的邏輯,憑借強化學(xué)習(xí)在游戲的每一步中計算下一步的最佳算法。就這樣,DeepNash開啟了自我對抗訓(xùn)練。訓(xùn)練的獎懲機制是:當(dāng)DeepNash—A獲勝時,該網(wǎng)絡(luò)參數(shù)將會增強;同時,對手方DeepNash—B的參數(shù)將會被削弱。通過55億次的對弈,DeepNash取得了很好的成績,失誤率越來越小,無限接近納什均衡最優(yōu)。在算法測試中,DeepNash以97%的勝率壓制了其他機器選手。而在Gravon游戲平臺上,通過和人類專業(yè)棋手進行兩周多的競技,DeepNash最終在有20年歷史的積分排名榜中升至第三位。除了學(xué)習(xí)能力驚人,DeepNash更讓人驚訝的地方在于,它在開局不會固定自己的起始位置,而是不斷優(yōu)化起始點。這樣做究竟是隨機在10535種可能性中尋找最優(yōu)解,還是“有意識”地避免對手對自己出牌套路的破解而故意為之,目前不得而知。如果是后者,就讓人不寒而栗了。不過,DeepNash確實會用一些看上去“誘騙”的方式來“引誘”對手落入陷阱,通過一些看似無意義(棋子重復(fù)跳動),或者犧牲高級棋子(讓對方放松警惕),從而進行伏擊。圖片加入非理性測算后的多方博弈
          DeepNash確實相當(dāng)厲害,但如果你仔細(xì)觀察也不難發(fā)現(xiàn),納什均衡的狀態(tài)是發(fā)生在兩方之間的,而現(xiàn)實世界往往并非兩者的零和博弈。當(dāng)博弈均衡需要發(fā)生在多方,又會呈現(xiàn)怎樣的態(tài)勢呢?對此,Meta AI研究員們的發(fā)明或許更具挑戰(zhàn)性:創(chuàng)建了能夠玩多方博弈游戲的AI模型——Cicero。在一款名為Diplomacy(外交風(fēng)云)的游戲中,多個玩家每人代表一個國家,最多可以有7個玩家一起玩。游戲規(guī)則是進行軍隊和戰(zhàn)艦的戰(zhàn)略部署,從而獲得對供應(yīng)中心的控制權(quán)。圖片和DeepNash在Stratego中展現(xiàn)的非合作博弈下的純零和狀態(tài)不同,Cicero的博弈模式設(shè)定更加開放,包括每個玩家都可以私下進行交流和合作,而當(dāng)合作博弈與非合作博弈都構(gòu)建在多玩家的算法模型中時,預(yù)期結(jié)果更加不可控。Cicero的開發(fā)者之一Noam Brown表示說:“當(dāng)你超越雙人的零和游戲時,納什均衡的概念對于與人類打好關(guān)系不再那么有用?!?/span>目前,Cicero已經(jīng)在Diplomacy的125,261場游戲中進行了訓(xùn)練,它的推理模塊(SRM)已經(jīng)學(xué)會預(yù)測自身的狀態(tài),包括其他玩家可能采取的策略。通過預(yù)測,SRM會選擇最佳的行動路徑,并向其擁有27億參數(shù)語言模型的對話模塊上發(fā)出意圖信號。在Brown看來,像Cicero這樣能夠與人類進行互動,并且可以對人類的非理性次優(yōu)行為進行解釋的人工智能才能越來越接近現(xiàn)實世界,從而為未來的應(yīng)用鋪平道路。他以智能駕駛舉例:“你不能設(shè)想道路上其他司機都是理性的。”圖片唯理派 PK 經(jīng)驗論:哪個更接近現(xiàn)實?
          在應(yīng)用上,盡管DeepNash是為Stratego而開發(fā)的,但它的實際用途遠不止在游戲世界里“搗亂”。未來將會用在便利人們生活的各個方面,比如交通或者市場預(yù)測。和DeepNash一樣,Cicero未來也會應(yīng)用于現(xiàn)實世界,“我們雖然有一只腳在游戲世界里,但現(xiàn)在我們也有一只腳在現(xiàn)實世界里?!?/span>對于DeepNash和Cicero,你認(rèn)為它們哪個更可能實現(xiàn)在現(xiàn)實世界的落地呢?請留言投****。參考鏈接:https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/https://www.nature.com/articles/d41586-022-04246-7


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

          存儲器相關(guān)文章:存儲器原理




          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉