色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專(zhuān)欄

          EEPW首頁(yè) > 博客 > DeepMind 打造 AI 游戲系統(tǒng),可以玩****、國(guó)際象棋、圍棋等,戰(zhàn)斗力爆表

          DeepMind 打造 AI 游戲系統(tǒng),可以玩****、國(guó)際象棋、圍棋等,戰(zhàn)斗力爆表

          發(fā)布人:AI科技大本營(yíng) 時(shí)間:2021-12-15 來(lái)源:工程師 發(fā)布文章

          編譯 | 禾木木

          出品 | AI科技大本營(yíng)(ID:rgznai100)

          谷歌母公司 Alphabet 的人工智能實(shí)驗(yàn)室 DeepMind 長(zhǎng)期以來(lái)一直投資于游戲人工智能系統(tǒng)。實(shí)驗(yàn)室的理念是,游戲雖然缺乏明顯的商業(yè)應(yīng)用,但卻是認(rèn)知和推理能力的獨(dú)特相關(guān)挑戰(zhàn)。這使它們成為 AI 進(jìn)步的有用基準(zhǔn)。

          與此前開(kāi)發(fā)的游戲系統(tǒng)不同,DeepMind 創(chuàng)建了一個(gè)名為 Player of Games 的系統(tǒng),是第一個(gè)在完全信息游戲以及不完全信息游戲中都能實(shí)現(xiàn)強(qiáng)大性能的 AI 算法。與 DeepMind 之前開(kāi)發(fā)的其他游戲系統(tǒng),如國(guó)際象棋冠軍AlphaZero和星際爭(zhēng)霸 II 的 AlphaStar 不同,博弈者可以在完全信息游戲(例如中國(guó)圍棋和國(guó)際象棋)和不完全信息游戲(例如,****)中表現(xiàn)出色。

          無(wú)論是解決交通擁堵問(wèn)題的道路規(guī)劃,還是合同談判、與顧客溝通等互動(dòng)任務(wù),都要考慮和平衡人們的偏好,這與游戲策略非常相似。AI系統(tǒng)可能通過(guò)協(xié)調(diào)、合作和群體或組織之間的互動(dòng)而獲益。像 Player of Games 這樣的系統(tǒng),能推斷其他人的目標(biāo)和動(dòng)機(jī),使其與他人成功合作。

          不完全對(duì)完全

          不完全信息游戲的信息在游戲過(guò)程中對(duì)玩家是隱藏的,相比之下,完全信息游戲在開(kāi)始時(shí)會(huì)展示所有的信息。

          要玩好完全的信息游戲,需要相當(dāng)多的預(yù)見(jiàn)性和計(jì)劃。玩家必須處理他們?cè)谄灞P(pán)上看到的東西,并決定他們的對(duì)手可能會(huì)做什么,同時(shí)努力實(shí)現(xiàn)最終的勝利目標(biāo)。不完全信息游戲則要求玩家考慮隱藏的信息,并思考下一步應(yīng)該如何行動(dòng)才能獲勝,包括可能的虛張聲勢(shì)或組隊(duì)對(duì)抗對(duì)手。

          DeepMind 稱(chēng),Player of Games是首個(gè)“通用且健全的搜索算法”,在完全和不完全的信息游戲中都實(shí)現(xiàn)了強(qiáng)大的性能。

          Player of Games 有很強(qiáng)通用性,不過(guò)不是什么游戲都能玩。參與研究的DeepMind高級(jí)研究科學(xué)家馬丁·施密德(Martin Schmid)說(shuō),在完全信息游戲中,AlphaZero比Player of Games更強(qiáng)大,但在不完全的信息游戲中,就沒(méi)有那么厲害。系統(tǒng)需要考慮每個(gè)玩家在游戲中的所有可能觀點(diǎn)。雖然在完全信息游戲中只有一個(gè)視角,但在不完全信息游戲中可以有很多這樣的視角,例如,****大約有 2,000 個(gè)。此外,與 DeepMind AlphaZero 的繼任者 MuZero 不同,Player of Games 也需要了解它所玩的游戲規(guī)則,而 MuZero 可以即時(shí)掌握完全信息游戲的規(guī)則。

          在其研究中,DeepMind 在國(guó)際象棋、圍棋、德州****和戰(zhàn)略棋盤(pán)游戲《蘇格蘭場(chǎng)》上的表現(xiàn),評(píng)估了 Player of Games 使用谷歌 TPUv4 加速芯片組進(jìn)行訓(xùn)練。對(duì)于圍棋,它在 AlphaZero 和 Player of Games 之間設(shè)置了 200 場(chǎng)比賽,而對(duì)于國(guó)際象棋,DeepMind 則讓 Player of Games 和 GnuGo、Pachi 和 Stockfish 以及 AlphaZero 在內(nèi)的頂級(jí)系統(tǒng)進(jìn)行了較量。Player of Games 的德州****比賽使用公開(kāi)可用的 Slumbot 進(jìn)行,該算法還與 Joseph Antonius Maria Nijssen 開(kāi)發(fā)的 PimBot 進(jìn)行了蘇格蘭場(chǎng)的比賽。DeepMind 的合著稱(chēng)為“PimBot”。

          1.png

          在國(guó)際象棋和圍棋中,Player of Games 被證明在某些配置中比 Stockfish 和 Pachi 更強(qiáng)大,并且它在對(duì)抗最強(qiáng)的 AlphaZero 系統(tǒng)時(shí)贏得了 0.5% 的比賽。盡管在對(duì)陣 AlphaZero 的比賽中損失慘重,但 DeepMind 認(rèn)為 Player of Games 的表現(xiàn)達(dá)到了“頂級(jí)人類(lèi)業(yè)余愛(ài)好者”的水平,甚至可能達(dá)到了職業(yè)水平。

          結(jié)果顯示,Player of Games是一個(gè)更好的德州****和蘇格蘭場(chǎng)玩家。與Slumbot對(duì)戰(zhàn)時(shí),該算法平均每hand贏得700萬(wàn)個(gè)大盲注(mbb/hand),mbb/hand是每1000 hand贏得大盲注的平均數(shù)量。

          同時(shí)在蘇格蘭場(chǎng),DeepMind稱(chēng),盡管PimBot有更多機(jī)會(huì)搜索獲勝的招數(shù),但Player of Games還是“顯著”擊敗了它。


          未來(lái)

          Schmid 相信 Player of Games 是向真正通用的游戲系統(tǒng)邁出的一大步。

          實(shí)驗(yàn)的總體趨勢(shì)是,隨著計(jì)算資源增加,該算法的性能會(huì)更好,Schmid 預(yù)計(jì)這種方法將在可預(yù)見(jiàn)的范圍內(nèi)擴(kuò)展未來(lái)。

          “人們會(huì)認(rèn)為,受益于AlphaZero的應(yīng)用程序可能也會(huì)受益于游戲玩家?!彼劦?,“讓這些算法更加通用是一項(xiàng)令人興奮的研究?!?/p>

          參考鏈接:

          https://venturebeat.com/2021/12/08/deepmind-makes-bet-on-ai-system-that-can-play-poker-chess-go-and-more/

          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

          液位計(jì)相關(guān)文章:磁翻板液位計(jì)原理




          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉