英特爾居然也來搞GTA5美化MOD了……?
——
文|杜晨 編輯|Vicky Xiao 圖片來源 | Intel Labs 論文、視頻截圖
最近有玩家做了這么一張梗圖:PS2平臺有三款《俠盜獵車手》(GTA),而 GTA5居然硬是扛起了三代 PlayStation 平臺……惡搞沒惡意,搞搞別生氣。這張梗圖能夠傳播,也是因為 GTA5 實在是電子游戲領域的常青樹:自從2013年在 PS3/Xbox360 平臺發(fā)布,包括單機和在線模式 DLC 的總銷量已經突破1.4億份……
這邊開發(fā)公司R星遲遲不發(fā)新作,那邊電腦游戲平臺的CPU/顯卡硬件和顯示技術已經更新了好幾代。因此,GTA5 美化 MOD 也成為了玩家熱衷的修改方向。從真實汽車模型,到更大范圍的地圖和視覺效果修改,多種多樣的 MOD 顯著增強了 GTA5 的生命力,讓這款已經快要10歲的游戲仍能令玩家感到新意。開發(fā) MOD 的大多是國外大神,因為涉及到違反用戶協議的灰色地帶,MOD 開發(fā)工作通常是個人非營利性質的。不過最近,我們非常詫異地發(fā)現:竟然英特爾也在“官方”開發(fā) GTA5 美化 MOD!
↑ 可能略微有點標題黨……實際情況是:英特爾實驗室耗時多年研發(fā)了 EPE (Enhancing Photorealisim Enhancement),一項基于深度學習卷積神經網絡的合成圖像逼真性算法。它能夠逐幀優(yōu)化 GTA5 輸出的原始畫面,配合多種第三方街景數據庫,生成不同風格的擬真游戲畫面。最近英特爾實驗室 (Intel Labs) 發(fā)布了一篇論文,介紹了他們在深度學習圖像逼真度提升方面的最新進展。而他們的實驗過程,采用的就是 GTA5 的圖像。英特爾的研究員設計了一套多模塊的卷積神經網絡架構,對 GTA5 和第三方城市街景圖像庫的數據進行學習。玩家大神制作的 MOD,主要依靠事先調換圖形素材、更新渲染引擎、增加光追支持等;而英特爾的思路是:直接用未修改的游戲的原始視頻和數據輸出,輸入到深度學習系統里,實時演算出優(yōu)化后的圖像。論文作者 Vladlen Koltun 介紹這套系統的工作方式:它可以接入到游戲上,你可以把它理解為 GTA5 的圖像后處理系統。論文作者之一的 Koltun,是英特爾智慧系統部門的首席科學家。他在歐洲圖形學大會 Eurographics 2021 上透露,EPE 算法在英特爾實驗室費時兩年時間研發(fā),效果此前從未在外部公開過?!埃‥PE)屬于那種需要長時間投入,幾個月內都不會產出結果,研究時長以年為單位的那種研究,”Koltun 表示,“在(圖像合成逼真性)的問題上,想要做出一點能拿得出手的結果并不難,找?guī)讖埿Ч玫恼掌诺秸撐睦锞屯炅?;但要發(fā)明一種真的能用的方案 (something that really, really works),是非常艱難的?!?br />接下來讓我們深入了解一下,英特爾實驗室的這套 “GTA5 美化 MOD”的具體工作方式。
老“游戲”,新“玩法”
GTA5 已經是一款快10年的老游戲了,但無論是在單機還是在線模式中,玩家總能發(fā)明出各種有趣或稀奇古怪的新玩法……同樣,畫面美化 MOD 也是一個伴隨 GTA5 存在了很多年的領域了,“民間”的技術方向也就那么幾種。而這次,英特爾實驗室用了新“玩法”,在畫面逼真性上實現了前所未有的突破。EPE 算法的訓練原理如下圖:簡單來說,EPE 整合了三個獨立的神經網絡,處理三種不同的數據源:GTA5 自帶渲染引擎輸出的 buffer 緩沖數據,游戲直出畫面,以及第三方街景數據庫的圖像。1)GTA5 游戲自帶的渲染引擎,能夠輸出一組名為 G-buffer 的數據,其中包括畫面中物體的種類、和玩家視角攝像頭之間的距離、表面材質、光滑程度、反照率、光照數據等等。這些數據,輸入到一套卷積神經網絡數據流當中,提取出各類數據的遮罩圖,用于訓練神經網絡;然后經過一系列專門設計的殘差模塊,輸出不同規(guī)模的張量特征數據。2)借助前一步的訓練結果,訓練一個圖像增強神經網絡,然后把游戲直出畫面,輸入這個神經網絡里,得到增強后的圖像:3)真正的圖像翻譯工作發(fā)生在這一步:游戲直出畫面、增強圖像,和第三方街景數據庫的相似圖像,一起輸入到一個感知辨別器(神經網絡),經過一系列計算,生成感知特征圖、標簽圖,以及相關的插值等數據,最終“翻譯”合成為一張圖。這一部分也采用了對抗模型的設計,經過持續(xù)的訓練,最終輸出的圖片能夠準確還原游戲直出畫面當中的物體構成,并且完美轉移外部數據庫圖像的風格。比如,下圖為英特爾實驗室用 GTA5 和 Cityscapes 數據庫結合生成的畫面風格。由于 Cityscapes 的圖像數據大多來自于德國,具有獨特的畫面風格,所以你可以看出來,“美化”出來的結果似乎偏綠,有些陰冷;并且,由于德國植被更加茂盛,你可以看到 GTA5 里圣安地列斯(原型為洛杉磯)光禿、干燥、偏黃的山丘,渲染出了濃密的綠色植被。如果你對 EPE 的工作原理感興趣,可以看這個解說視頻:技術創(chuàng)新
根據硅星人的理解,這篇論文提出的圖像翻譯方法有幾個創(chuàng)新之處。正如前述,傳統的 GTA5 美化 MOD 的實現思路,都需要對游戲文件進行重度修改,有可能造成文件損壞,而且很難在多人在線模式下使用,以及也涉及違反游戲使用協議的灰色地帶。
而 EPE 的思路不同之處,在于它直接在游戲輸出畫面的基礎上進行美化,不涉及游戲文件修改,也就不違反使用協議。(當然前面也提到,在訓練過程中它確實也需要”監(jiān)聽“游戲系統運行時渲染引擎輸出的數據。
當然,EPE 也不是第一個采用深度學習思路進行 GTA5 畫面優(yōu)化的技術。在此之前,UC Berkeley 和 Adobe 研究院共同開發(fā)的 CUT (Contrastive Unpaired Translation) ,以及南洋理工大學、UCB、商湯共同開發(fā)的 TSIT (Two-Stream Image-to-image Translation) ——這兩個算法都是此前世界領先的圖像翻譯算法。但至少在 GTA5 上,這兩個算法都存在嚴重的圖像失真情況。比如,CUT 在渲染尺寸較小、和周遭環(huán)境相對獨立的物體(比如樹木、告示牌、行人等)時會出現重影,而且時序穩(wěn)定性不佳;而 TSIT 算法渲染的結果,會在畫面上部的天空區(qū)域中出現嚴重失真,增加一些不存在的植被,英特爾實驗室的科學家認為,這些算法失真的情況,可能是由訓練時采用的第三方數據庫所導致的。比如攝像頭的角度太低導致遠景中的樹木占滿屏幕上部。如下圖所示,在 Cityscapes 數據庫的很多照片里,植被的區(qū)域很大,而通常 GTA5 畫面中的植被很小。 甚至在 Cityscapes 數據庫中,由于數據采集車上有一個奔馳車標,其它算法在渲染的時候也會誤以為這個車標也是道路特征的一部分:在訓練 EPE 的時候,英特爾的團隊故意縮小了神經網絡的視野范圍,讓它可以聚焦于畫面中特定的物體。EPE 在 GTA5 圖像逐幀美化的真實度、時序穩(wěn)定性等方面達到了目前最先進的水平,顯著優(yōu)于 CUT、TSIT 等基于深度學習的圖像到圖像翻譯算法:因為算法的設計,它還有一點“即插即用”的感覺,可以接入各種各樣的外部數據庫,實現不同風格的美化結果。比如 Mapillary Vistas,是一個來自全世界各地的街景圖像數據庫,風格更加多樣,色彩更鮮明。這種風格也可以通過 EPE 算法翻譯到 GTA5 的畫面里,效果更加接印象中圣安地列斯的樣子:下圖左邊為游戲直出畫面,右邊為采用 Mapillary Vistas 作為目標風格的美化結果,可以看出畫面色彩飽和度有很大提升;為了降低游戲渲染壓力而在遠景加入的迷霧,也得到了優(yōu)化。
網友評價:什么?這居然不是真的?
5月11日,英特爾實驗室把 EPE 的介紹視頻發(fā)到了 YouTube上。只用了半個月,這個視頻的觀看量已經超過了270萬……大部分網友評價都是從非專業(yè)角度出發(fā)的,但都對團隊演示的渲染結果表示震驚……網友 Fat Tabby 留言:如果你給我看這個視頻并且跟我說是行車記錄儀拍出來的,我應該會相信你。網友 G Luong 表示:這才是真正的圖像擬真。其它所有的畫面美化 MOD 其實只是增加反射,并且讓每一條路都變得很潮濕而已。
也有好幾位眼尖的玩家發(fā)現,如果按照 Cityscapes 的風格進行美化,出來的畫面風格其實倒是跟 GTA4(設定在 Liberty City,以紐約為原型,風格較為陰暗)。網友 OK DOK 表示,怪不得當初 GTA4 出來的時候,人們都驚訝于一款游戲居然能如此”真實“。網友 Cosine 說的很對:沒有那么炫酷的反射,沒有過飽和的顏色和超高的亮度,才是最”真實“的游戲。說來有趣,英特爾跟 GTA5 已經是老朋友了——當然,指的不是游戲,而是研究層面。早在2016年,英特爾實驗室和德國達姆施塔特工業(yè)大學就在嘗試用 GTA5 做自動駕駛方面的研究。當時自動駕駛已經成為新的技術趨勢,但出于現實成本等因素,不是所有人都能獲得大量真實道路的視覺數據用于研究。所以英特爾和該大學組建了團隊,試圖從 GTA5 等游戲中提取接近于真實道路情況的數據,幫助自動駕駛技術訓練。他們當時還發(fā)布了一篇論文 Playing for Data: Ground Truth from Computer Games——當年的那個團隊里,就有今天這篇 EPE 論文里的 Vladlen Koltun。所以今天我們可以說,這位英特爾智能系統部門的首席科學家,也是 GTA5 美化 MOD 領域的大神了!
你們說,Koltun 會不會也跟大家一樣,焦急等待著R星發(fā)布 GTA6 呢?當然,如果 GTA6 也能用上類似的深度學習圖像擬真技術的話,硅星人還是愿意再等一等的……——轉念一想,你們覺得 GTA6 還不發(fā)布,會不會真的是因為R星用了某種超級前沿的技術,目前的主機性能——即使是 PS5——都還無法實現?
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。