色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 這場(chǎng)比賽,讓上百個(gè)AI智能體「卷起來(lái)了」

          這場(chǎng)比賽,讓上百個(gè)AI智能體「卷起來(lái)了」

          發(fā)布人:機(jī)器之心 時(shí)間:2022-08-20 來(lái)源:工程師 發(fā)布文章
          過(guò)去數(shù)年,隨著神經(jīng)網(wǎng)絡(luò)、基于強(qiáng)化學(xué)習(xí)的自我博弈、多智能體學(xué)習(xí)和模仿學(xué)習(xí)等通用機(jī)器學(xué)習(xí)理論的突破,AI 智能體的決策能力實(shí)現(xiàn)了飛躍式發(fā)展。


          可以看到,不管是谷歌、微軟、IBM 等全球科技巨頭,還是國(guó)內(nèi)一眾 AI 龍頭企業(yè),在學(xué)術(shù)研究和產(chǎn)業(yè)落地上,它們的關(guān)注焦點(diǎn)都在從智能感知向智能決策過(guò)渡?!笡Q策 AI」成了領(lǐng)域內(nèi)的必爭(zhēng)之地。
          今年 5 月,谷歌旗下的機(jī)構(gòu) DeepMind 發(fā)布 Gato,這款全新的 AI 智能體能夠在「廣泛的環(huán)境中」完成 604 項(xiàng)不同的任務(wù)。Gato 的誕生,再次刷新了單智能體的能力上限。當(dāng)然,關(guān)于 AI 決策能力的探索不會(huì)僅限于此,如果讓海量智能體在一個(gè)接近真實(shí)世界的開(kāi)放決策環(huán)境中「狹路相逢」,它們會(huì)做出何種判斷和選擇,又會(huì)怎樣分工合作、競(jìng)爭(zhēng)呢? 近日,由超參數(shù)科技發(fā)起,麻省理工學(xué)院、清華大學(xué)深圳國(guó)際研究生院,以及知名數(shù)據(jù)科學(xué)挑戰(zhàn)平臺(tái) AIcrowd 聯(lián)合主辦的「IJCAI 2022-Neural MMO 海量 AI 團(tuán)隊(duì)生存挑戰(zhàn)賽」落幕。在這場(chǎng)比賽中,我們發(fā)現(xiàn)了一些進(jìn)行新探索的可能性。

          圖片


          復(fù)雜環(huán)境中的多智能體博弈
          近年來(lái),多智能體環(huán)境已經(jīng)成為深度強(qiáng)化學(xué)習(xí)的一個(gè)有效研究平臺(tái)。目前,強(qiáng)化學(xué)習(xí)環(huán)境要么足夠復(fù)雜,但限制條件太多,普適性不強(qiáng);要么限制條件很少,但過(guò)于簡(jiǎn)單。這些問(wèn)題限制了更高復(fù)雜度任務(wù)的創(chuàng)建,也很難激發(fā)出多智能體更高階的決策能力。
          2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 實(shí)習(xí)期間開(kāi)發(fā)了 Neural MMO,他借鑒大型多人在線游戲(MMO),模擬出一個(gè)龐大的生態(tài)系統(tǒng),系統(tǒng)中包含數(shù)量不等的智能體,并讓它們?cè)诔志?、廣闊的環(huán)境中競(jìng)爭(zhēng)。行業(yè)人士普遍認(rèn)為,「這個(gè)模擬相當(dāng)有趣」。與過(guò)往著眼于技術(shù)水準(zhǔn)的 AI 游戲?qū)?zhàn)環(huán)境不同,Neural MMO 涉及到了 AI 的長(zhǎng)期判斷和選擇,更考驗(yàn)智能體的決策能力。 「IJCAI 2022-Neural MMO 海量 AI 團(tuán)隊(duì)生存挑戰(zhàn)賽」使用的正是上述環(huán)境。主辦方表示,選擇 Neural MMO 主要基于兩點(diǎn):一是 Neural MMO 類似于開(kāi)放世界生存游戲,本身有一個(gè)自運(yùn)轉(zhuǎn)系統(tǒng),并且定義了采集、攻擊、生存等基本機(jī)制,二是它支持海量 AI 共存、交互,并涌現(xiàn)策略。無(wú)論在學(xué)術(shù)界還是工業(yè)界,這種環(huán)境都不多見(jiàn)。

          圖片

          Neural MMO環(huán)境
          在這場(chǎng)比賽中,每局對(duì)戰(zhàn)都包含 16 支隊(duì)伍,每支隊(duì)伍包含 8 個(gè)智能體,這些智能體小分隊(duì)要在 128x128 的地圖上進(jìn)行自由對(duì)抗。根據(jù)主辦方的設(shè)計(jì),每個(gè)智能體小分隊(duì)要達(dá)成覓食、探索、競(jìng)爭(zhēng)、打怪四項(xiàng)成就。這意味著每個(gè)環(huán)境里有 128 個(gè)智能體同時(shí)決策,每支隊(duì)伍里的 8 個(gè)智能體要為了不同的目標(biāo)進(jìn)行有效的合作分工。

          圖片


          在這種情況下,每個(gè)智能體都要發(fā)揮自己的強(qiáng)項(xiàng),必要時(shí),為了團(tuán)隊(duì)能夠獲得「最后的勝利」,一部分智能體還要學(xué)會(huì)「主動(dòng)送人頭」。鑒于環(huán)境里有多個(gè)智能體在同時(shí)學(xué)習(xí),智能體們不僅需要考慮自己期望得到何種獎(jiǎng)勵(lì),還要考慮對(duì)手可能會(huì)采取什么策略。再加上每一局對(duì)戰(zhàn)都要完成四項(xiàng)任務(wù),層層設(shè)置之下,每個(gè)智能體面臨的「抉擇」都有更高的決策復(fù)雜度。
          讓海量智能體「卷」起來(lái)
          對(duì)一場(chǎng)學(xué)術(shù)性質(zhì)的比賽來(lái)說(shuō),除了找到好問(wèn)題,還要有足夠多的好選手。為此,主辦方從賽事規(guī)則、工具、賽事支持等方面對(duì) Neural MMO 挑戰(zhàn)賽進(jìn)行了全面優(yōu)化。 在工具層面,「IJCAI 2022-Neural MMO 海量 AI 團(tuán)隊(duì)生存挑戰(zhàn)賽」升級(jí)了提交系統(tǒng),讓第一次成功提交到返回結(jié)果的時(shí)間從原來(lái)的兩個(gè)多小時(shí)減少到十分鐘;此外,挑戰(zhàn)賽還提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,參賽者只需要跑一遍代碼,就可以完成第一個(gè)提交;在 Baseline 中,用戶只需要訓(xùn)練兩天,就可以完成 Stage 1 0.5 的勝率,運(yùn)行訓(xùn)練四天,就可以獲得 Stage 1 0.8 的勝率。
          這些設(shè)計(jì)幫助參賽者在初始階段迅速地熟悉規(guī)則,并以此節(jié)省大量時(shí)間。利用省下來(lái)的時(shí)間,參賽者們可以將思考重點(diǎn)放在定義智能體在 Neural MMO 環(huán)境中的決策方式上,比如進(jìn)行獎(jiǎng)勵(lì)信號(hào)的設(shè)計(jì)等。
          在賽制上,這場(chǎng) Neural MMO 挑戰(zhàn)賽采取了 PvE 與 PvP 結(jié)合的方式。在 PvE 階段,每個(gè) Stage 的內(nèi)置 AI 難度會(huì)逐漸增加,參賽者由此感受到「梯度」。Stage 1 的難度是最低的,包含了一些基于簡(jiǎn)單規(guī)則編寫的開(kāi)源腳本。之后,Stage 2 的難度會(huì)變得更高,主辦方基于經(jīng)典的 PPO 算法對(duì)內(nèi)置 AI 進(jìn)行訓(xùn)練,并加入自我博弈(Self-Play)的訓(xùn)練機(jī)制。到了 Stage 3,智能體的綜合能力進(jìn)一步升級(jí),選手們面對(duì)的已經(jīng)是高度團(tuán)結(jié)的競(jìng)爭(zhēng)對(duì)手隊(duì)伍。
          在 PvE 階段獲,成就分達(dá)到 25 的隊(duì)伍即可晉級(jí);但在 PvP 階段,難度上升,對(duì)戰(zhàn)對(duì)象從內(nèi)置 AI 變?yōu)槠渌鼌①愡x手隊(duì)伍。
          讓 8 個(gè)智能體組團(tuán)完成任務(wù),是合作博弈中的一個(gè)經(jīng)典問(wèn)題。如果說(shuō)在 PvE 階段的前兩個(gè) Stage,依靠單打獨(dú)斗還能取得一些成績(jī),那么隨著環(huán)境內(nèi)置 AI 不斷變強(qiáng),再到對(duì)手從環(huán)境內(nèi)置 AI 變?yōu)檎鎸?shí)世界中的參賽團(tuán)隊(duì),出戰(zhàn)的智能體小分隊(duì)也需要隨之完成脫胎換骨般的進(jìn)化,以此去理解怎樣達(dá)成「團(tuán)隊(duì)最優(yōu)決策」。
          基于上述改進(jìn),不同水平的參賽者都能在這場(chǎng)賽事中找到適合自己的參賽目標(biāo)。但同時(shí),要想獲得頂尖名次,智能體的綜合決策能力要能經(jīng)受住考驗(yàn),這就要求選手在智能體的算法設(shè)計(jì)上具備更深刻的思考。
          RL 算法選手,后來(lái)者居上
          經(jīng)過(guò)三個(gè)月的激烈角逐,兩支來(lái)自業(yè)界的隊(duì)伍脫穎而出,斬獲了本屆挑戰(zhàn)賽的冠亞軍。有趣的是,這兩支隊(duì)伍均采用強(qiáng)化學(xué)習(xí)算法,且都是在最后一個(gè)月才參賽。
          冠軍團(tuán)隊(duì) LastOrder 提到,相較現(xiàn)有的其他多智能體環(huán)境,MMO 有更豐富的內(nèi)容,例如生存、戰(zhàn)斗、升級(jí)、團(tuán)隊(duì) PK、隨機(jī)地圖等。與其他同類比賽不同的是,Neural MMO 挑戰(zhàn)賽給參賽者的規(guī)則限制很少,這也為強(qiáng)化學(xué)習(xí)算法的應(yīng)用提供了廣闊的發(fā)揮空間。
          NeuralNoob 是亞軍獲得者,他認(rèn)為 Neural MMO 最明顯的特點(diǎn)在于支持的海量智能體,本場(chǎng)比賽的設(shè)置為 128 個(gè),但實(shí)際上可以增加到上千或者更多?!杆且粋€(gè)多任務(wù)的環(huán)境,每個(gè)智能體需要在必要的時(shí)候改變策略各司其職,具有更大的研究?jī)r(jià)值?!?/span>
          在比賽過(guò)程中,LastOrder 設(shè)計(jì)了分布式強(qiáng)化學(xué)習(xí)訓(xùn)練框架 Newton,該框架具備高度靈活性及可擴(kuò)展性。

          圖片


          他們采用獎(jiǎng)勵(lì)設(shè)計(jì)等方法間接鼓勵(lì)智能體做出合理的行為。在設(shè)計(jì)合理的獎(jiǎng)勵(lì)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等之后,他們觀察到,深度強(qiáng)化學(xué)習(xí)訓(xùn)練后的智能體自行涌現(xiàn)了相互配合的行為。
          「啟發(fā)式算法的優(yōu)點(diǎn)是思路更加簡(jiǎn)明,反饋更加直接。相比之下,強(qiáng)化學(xué)習(xí)需要更長(zhǎng)的訓(xùn)練時(shí)間,以進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的調(diào)整?!筁astOrder 表示,「但強(qiáng)化學(xué)習(xí)算法所能達(dá)到的能力上限更高,更具探索的價(jià)值?!?/span>
          NeuralNoob 同樣采用強(qiáng)化學(xué)習(xí)算法,整體方案是 ppo 算法加自我博弈 ( self-play) 訓(xùn)練機(jī)制,所有智能體的訓(xùn)練都將 8 個(gè)智能體作為一個(gè)團(tuán)隊(duì)來(lái)訓(xùn)練,value 部分則會(huì)用到整個(gè)團(tuán)隊(duì)的共享表征,并按照 CTDE 的方式訓(xùn)練。
          在 LastOrder 看來(lái),MMO 這個(gè)平臺(tái)還存在更多想象空間:例如它可以引入更多游戲要素,甚至可以變成一個(gè)開(kāi)放的線上游戲,促進(jìn) Human in the loop 等領(lǐng)域的相關(guān)研究。對(duì)此,NeuralNoob 持相似看法,他認(rèn)為可以有更多樣的裝備供智能體選擇,并設(shè)置一個(gè)安全區(qū),智能體到達(dá)安全區(qū)后不能發(fā)動(dòng)攻擊,同時(shí)可以和敵方智能體進(jìn)行裝備交易。
          在 NeuralNoob 的設(shè)想里,甚至可以讓智能體臨時(shí)和敵方智能體進(jìn)行合作,聯(lián)手擊殺一些強(qiáng)大的內(nèi)置 AI,而同敵方智能體的合作將會(huì)讓 MMO 更符合真實(shí)世界中合作與競(jìng)爭(zhēng)共存的關(guān)系。
          NeuralNoob 認(rèn)為,這些是強(qiáng)化學(xué)習(xí)目前比較難勝任的地方,強(qiáng)大如 openai five,也是通過(guò)手寫規(guī)則來(lái)實(shí)現(xiàn)出裝路線,因?yàn)樵O(shè)計(jì)到裝備選擇的訓(xùn)練樣本占比勢(shì)必會(huì)很小,但依賴鏈卻很長(zhǎng)。
          智能決策的「今天」和「未來(lái)」
          更長(zhǎng)遠(yuǎn)地看,Neural MMO 環(huán)境提供了一個(gè)廣闊、高自由度的學(xué)術(shù)框架,可以推動(dòng)一些種群層面的行為研究,比如如何高效組隊(duì),它甚至能衍生出社會(huì)學(xué)、經(jīng)濟(jì)學(xué)方面的概念研究,這些都是現(xiàn)階段相關(guān)領(lǐng)域內(nèi)瓶頸仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 團(tuán)隊(duì)生存挑戰(zhàn)賽」 在學(xué)術(shù)研究層面的意義也更加凸顯。
          任何關(guān)于決策智能的學(xué)術(shù)研究,人們都希望它能在真實(shí)的產(chǎn)業(yè)場(chǎng)景中發(fā)揮價(jià)值,包括但不限于商業(yè)游戲、量化交易。在現(xiàn)實(shí)生活中,決策的代價(jià)可能會(huì)非常大,這是因?yàn)?,一方面,決策會(huì)直接導(dǎo)致結(jié)果,所以決策水平的質(zhì)量高低,跟結(jié)果帶來(lái)的收益直接相關(guān);另一方面,決策所設(shè)定的環(huán)境相當(dāng)復(fù)雜,而想要在真實(shí)世界中做預(yù)演,成本也會(huì)非常高。
          在學(xué)界、業(yè)界對(duì)智能決策的探索過(guò)程中,Neural MMO 無(wú)疑有希望成為一個(gè)很好的試驗(yàn)載體。但現(xiàn)實(shí)中的智能決策往往更加復(fù)雜,有著更長(zhǎng)的決策鏈條。如何進(jìn)一步仿真模擬,讓 Neural MMO 更大程度上地接近現(xiàn)實(shí)決策環(huán)境,這需要整個(gè)行業(yè)進(jìn)行長(zhǎng)期探索。
          據(jù)了解,超參數(shù)科技將依托 2022 NeurlPS 會(huì)議舉辦新一輪 NMMO 挑戰(zhàn)賽。相較于「IJCAI 2022-Neural MMO 海量 AI 團(tuán)隊(duì)生存挑戰(zhàn)賽」,新賽事增加了交易系統(tǒng),豐富了裝備品類、多職業(yè)分工以及毒圈機(jī)制,這使得它本就開(kāi)放的環(huán)境變得更加貼合現(xiàn)實(shí)決策環(huán)境。同時(shí),持續(xù)豐富的智能體之間合作及競(jìng)爭(zhēng)的交互方式也大大增加了決策多樣性、策略深度以及合作競(jìng)爭(zhēng)的可能性。
          在Neural NMMO系列挑戰(zhàn)賽中,智能體與環(huán)境中的內(nèi)置AI、敵方智能體,以及隊(duì)友之間產(chǎn)生了大量交互,形成實(shí)時(shí)反饋,在動(dòng)態(tài)的決策環(huán)境中達(dá)成最優(yōu)決策,研究結(jié)果推動(dòng)智能決策技術(shù)的發(fā)展。不遠(yuǎn)的將來(lái),智能決策技術(shù)將成為數(shù)字化轉(zhuǎn)型的加速器,推進(jìn)能源、物流、工業(yè)等產(chǎn)業(yè)領(lǐng)域的研究落地和成果轉(zhuǎn)化,為更多「不確定」的真實(shí)決策場(chǎng)景提供相對(duì)「確定」的答案。

          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

          linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉