色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 人大高瓴人工智能學(xué)院Nature子刊:嘗試?yán)枚嗄B(tài)基礎(chǔ)模型邁向通用人工智能

          人大高瓴人工智能學(xué)院Nature子刊:嘗試?yán)枚嗄B(tài)基礎(chǔ)模型邁向通用人工智能

          發(fā)布人:機(jī)器之心 時(shí)間:2022-06-16 來源:工程師 發(fā)布文章
          最近,中國(guó)人民大學(xué)高瓴人工智能學(xué)院盧志武教授、孫浩長(zhǎng)聘副教授、以及院長(zhǎng)文繼榮教授作為共同通訊作者在國(guó)際綜合期刊《自然·通訊》(英文名:Nature Communications,簡(jiǎn)稱Nat Commun)上發(fā)表題為「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究論文,文章第一作者為博士生費(fèi)楠益。該工作嘗試?yán)枚嗄B(tài)基礎(chǔ)模型邁向通用人工智能,并將對(duì)各種 AI + 領(lǐng)域(如神經(jīng)科學(xué)和醫(yī)療健康)產(chǎn)生廣泛的影響。本文是這篇論文的解讀。

          圖片

           

          • 論文鏈接:https://www.nature.com/articles/s41467-022-30761-2
          • 代碼鏈接:https://github.com/neilfei/brivl-nmi


          人工智能的基本目標(biāo)是模仿人類的核心認(rèn)知活動(dòng),如感知、記憶、推理等。雖然許多人工智能算法或模型在各個(gè)研究領(lǐng)域都取得了巨大的成功,但是受限于大量標(biāo)注數(shù)據(jù)的獲取或是沒有足夠的計(jì)算資源支撐在大規(guī)模數(shù)據(jù)上的訓(xùn)練,大多數(shù)的人工智能研究還是只局限于單個(gè)認(rèn)知能力的習(xí)得。
          為了克服這些局限并向通用人工智能邁出一步,我們以人類大腦處理多模態(tài)信息為靈感(如圖 1a),開發(fā)了一個(gè)多模態(tài)(視覺語(yǔ)言)基礎(chǔ)模型,也即預(yù)訓(xùn)練模型。此外,為了讓模型獲得強(qiáng)大的泛化能力,我們提出訓(xùn)練數(shù)據(jù)中的圖片與文本應(yīng)遵循弱語(yǔ)義相關(guān)假設(shè)(如圖 1b),而不是圖片區(qū)域與單詞的精細(xì)匹配(強(qiáng)語(yǔ)義相關(guān)),因?yàn)閺?qiáng)語(yǔ)義相關(guān)假設(shè)將導(dǎo)致模型丟失人們?cè)跒閳D片配文時(shí)暗含的復(fù)雜情感和思考。

          圖片

          圖 1:基于弱語(yǔ)義相關(guān)假設(shè)的 BriVL 模型。a. 我們的 BriVL 模型和人腦在處理視覺語(yǔ)言信息上的對(duì)比。b. 建模弱語(yǔ)義相關(guān)數(shù)據(jù)和建模強(qiáng)語(yǔ)義相關(guān)數(shù)據(jù)的對(duì)比。
          通過在爬取自互聯(lián)網(wǎng)的大規(guī)模圖文對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練,我們得到的多模態(tài)基礎(chǔ)模型展現(xiàn)出強(qiáng)大的泛化能力和想象能力。我們相信,我們的工作向通用人工智能邁出了重要的一步(雖然可能很?。?duì)各種 AI + 領(lǐng)域(如神經(jīng)科學(xué)和醫(yī)療健康)產(chǎn)生廣泛的影響。
          方法
          我們開發(fā)了一個(gè)大規(guī)模多模態(tài)基礎(chǔ)模型在海量的多模態(tài)數(shù)據(jù)上進(jìn)行自監(jiān)督訓(xùn)練,并把它取名為 BriVL(Bridging-Vision-and-Language)。
          首先,我們使用了一個(gè)從互聯(lián)網(wǎng)構(gòu)建的大規(guī)模多源圖文數(shù)據(jù)集,稱為弱語(yǔ)義相關(guān)數(shù)據(jù)集(WSCD)。WSCD 收集了來自網(wǎng)絡(luò)上多個(gè)來源的中文圖像文本對(duì),包括新聞、百科和社交媒體。我們只過濾掉了 WSCD 中的****和敏感數(shù)據(jù),沒有對(duì)原始數(shù)據(jù)進(jìn)行任何形式的編輯和修改,以保持其自然的數(shù)據(jù)分布??偟膩碚f,WSCD 有大約 6.5 億個(gè)圖文對(duì),覆蓋了許多主題,如體育、日常生活和電影。
          其次,對(duì)于我們的網(wǎng)絡(luò)架構(gòu),由于圖像和文本之間不一定存在細(xì)粒度的區(qū)域單詞匹配,我們丟掉了耗時(shí)的目標(biāo)檢測(cè)器,采用簡(jiǎn)單的雙塔架構(gòu),因此能夠通過兩個(gè)獨(dú)立的編碼器對(duì)圖像和文本輸入進(jìn)行編碼(如圖 2)。雙塔結(jié)構(gòu)在推理過程中具有明顯的效率優(yōu)勢(shì),因?yàn)楹蜻x集的特征可以在查詢前計(jì)算和索引,滿足現(xiàn)實(shí)世界應(yīng)用的實(shí)時(shí)要求。第三,隨著大規(guī)模分布式訓(xùn)練技術(shù)和自監(jiān)督學(xué)習(xí)的發(fā)展,用海量的未標(biāo)注的多模態(tài)數(shù)據(jù)訓(xùn)練模型成為可能。
          具體來說,為了對(duì)圖文對(duì)的弱相關(guān)性進(jìn)行建模,并學(xué)習(xí)一個(gè)統(tǒng)一的語(yǔ)義空間,我們基于單模態(tài)對(duì)比學(xué)習(xí)方法 MoCo 設(shè)計(jì)了一個(gè)跨模態(tài)對(duì)比學(xué)習(xí)算法。如圖 2 所示,我們的 BriVL 模型使用了 momentum 機(jī)制,用來在不同的訓(xùn)練批次中動(dòng)態(tài)維護(hù)負(fù)樣本隊(duì)列。通過這種方式,我們會(huì)有一個(gè)比較大的負(fù)樣本數(shù)量(對(duì)對(duì)比學(xué)習(xí)至關(guān)重要),同時(shí)使用一個(gè)相對(duì)較小的 batch 大小以減少 GPU 的內(nèi)存占用(即 GPU 資源節(jié)約)。 

          圖片

          圖 2:用于大規(guī)模多模態(tài)預(yù)訓(xùn)練的 BriVL 模型示意圖。
          主要結(jié)果
          神經(jīng)網(wǎng)絡(luò)可視化
          當(dāng)我們聽到文字或描述性的句子時(shí),腦海中就會(huì)出現(xiàn)一些場(chǎng)景。那對(duì)于我們的 BriVL,它在如此大量的弱相關(guān)圖文對(duì)上進(jìn)行預(yù)訓(xùn)練以后,我們就很好奇當(dāng)給出文本時(shí),它會(huì)想象到什么。
          具體來說,我們首先輸入一段文本,通過 BriVL 的文本編碼器獲得其文本嵌入。然后我們隨機(jī)初始化一個(gè)噪聲圖像,并通過圖像編碼器得到其特征嵌入。由于輸入的圖像是隨機(jī)初始化的,它的特征與輸入文本的特征必定不一致。因此,我們定義了匹配兩個(gè)特征嵌入的目標(biāo),并通過反向傳播來更新輸入圖像。最終得到的圖像便能清楚地展示 BriVL 對(duì)輸入文本的想象。這里我們不使用任何額外的模塊或數(shù)據(jù),預(yù)訓(xùn)練好的 BriVL 也在整個(gè)可視化過程中被凍結(jié)。
          我們首先介紹 BriVL 對(duì)一些高級(jí)語(yǔ)義概念的想象能力(如圖 3)??梢钥吹剑M管這些概念非常抽象,但可視化還是能夠顯示出它們的具體形態(tài)(例如,“自然”:像草一樣的植物;“時(shí)間”:鐘表;“科學(xué)”:一張戴著眼鏡的臉和一個(gè)錐形瓶;“夢(mèng)境”:云,一座通往門的橋,以及夢(mèng)境般的氛圍)。這種將抽象概念概括為一系列具體物體的能力表明了我們的多模態(tài)預(yù)訓(xùn)練只使用弱語(yǔ)義相關(guān)數(shù)據(jù)的有效性。 

          圖片

          圖 3:BriVL 模型對(duì)抽象概念的想象。
          在圖 4 中,我們展示了 BriVL 對(duì)句子的想象力。BriVL 對(duì) “烏云背后有陽(yáng)光” 的想象不僅從字面上體現(xiàn)了烏云背后的陽(yáng)光,而且似乎還顯示出海上的危險(xiǎn)情況(左邊有船一樣的物體和波浪),表達(dá)了這句話的隱含意思。在 “生如夏花” 的可視化中,我們可以看到一個(gè)花叢。接下來的兩個(gè)場(chǎng)景更復(fù)雜的文本輸入都來自中國(guó)古詩(shī),其語(yǔ)法也與訓(xùn)練集中的絕大多數(shù)文本完全不同。看起來 BriVL 也能很好地理解它們:對(duì)于“竹外桃花三兩枝”,我們可以看到有竹子和粉紅色的花;對(duì)于“白日依山盡,黃河入海流”,我們可以看到山上的樹木遮掩著夕陽(yáng),前面河流上有一艘小船??偟膩碚f,我們發(fā)現(xiàn)即使在復(fù)雜句子的提示下,BriVL 依然具有很強(qiáng)的想象能力。 

          圖片

          圖 4:BriVL 模型對(duì)中文句子的想象。
          在圖 5 中,幾個(gè)類似的文本被用于 BriVL 的神經(jīng)網(wǎng)絡(luò)可視化。對(duì)于“有森林的山脈”,圖像中有更多的綠色區(qū)域;對(duì)于“有石頭的山脈”,圖像中有更多的巖石;對(duì)于“有雪的山脈”,中間樹木周圍的地面都是白色或藍(lán)色;對(duì)于“有瀑布的山脈”,可以看到藍(lán)色的水落下來,甚至還有一些水蒸汽。這些可視化結(jié)果證明了 BriVL 能對(duì)山脈的修飾詞進(jìn)行準(zhǔn)確的理解和想象。 

          圖片

          圖 5:BriVL 模型對(duì) “有… 的山脈” 的想象。
          文生成圖
          神經(jīng)網(wǎng)絡(luò)可視化非常直接,但有時(shí)會(huì)很難解釋。因此我們開發(fā)了另一種可視化 / 可解釋性方法,使 BriVL 的想象內(nèi)容可以更好地被我們?nèi)祟惱斫?。具體來說,我們利用 VQGAN 在 BriVL 的指導(dǎo)下來生成圖像,因?yàn)樵?ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的 VQGAN 非常善于生成逼真的圖像。我們首先隨機(jī)得到一個(gè) token 序列,并從預(yù)訓(xùn)練好的 VQGAN 中獲得一個(gè)生成圖像。接著,我們將生成的圖像輸入到 BriVL 的圖像編碼器中,同時(shí)將一段文本輸入到文本編碼器中。最后,我們定義圖像和文本嵌入之間需要匹配的目標(biāo),并通過反向傳播來更新初始的 token 序列。與神經(jīng)網(wǎng)絡(luò)可視化一樣,VQGAN 和 BriVL 在生成過程中都被凍結(jié)。為了比較,我們還展示了 OpenAI 的 CLIP 模型代替 BriVL 來生成的圖像。
          我們首先選擇了四個(gè)文本輸入,分別在圖 6 和圖 7 展示了 CLIP 和我們 BriVL 的文生成圖結(jié)果。CLIP 和 BriVL 都能很好地理解文本,然而我們也觀察到兩個(gè)主要的差異。第一,卡通風(fēng)格的元素會(huì)在 CLIP 生成的圖像中出現(xiàn),而 BriVL 生成的圖像則更加真實(shí)和自然。第二,CLIP 傾向于簡(jiǎn)單地把元素放在一起,而 BriVL 生成的圖像在全局上更加統(tǒng)一。第一個(gè)差異可能是由于 CLIP 和 BriVL 使用的訓(xùn)練數(shù)據(jù)不同。我們訓(xùn)練數(shù)據(jù)中的圖像是從互聯(lián)網(wǎng)上抓取的(大部分是真實(shí)的照片),而在 CLIP 的訓(xùn)練數(shù)據(jù)中可能有一定數(shù)量的卡通圖像。第二個(gè)區(qū)別可能是由于 CLIP 使用的圖文對(duì)具有很強(qiáng)的語(yǔ)義相關(guān)性(通過單詞過濾),而我們使用的則是弱相關(guān)數(shù)據(jù)。這意味著在多模態(tài)預(yù)訓(xùn)練期間,CLIP 更有可能學(xué)到具體物體和單詞 / 詞組之間的對(duì)應(yīng)關(guān)系,而 BriVL 則試圖將每張圖像與給定的文本作為一個(gè)整體來理解。 

          圖片

          圖 6:CLIP(w/ ResNet-50x4)借助 VQGAN 實(shí)現(xiàn)文生成圖的例子。 

          圖片

          圖 7:我們的 BriVL 借助 VQGAN 實(shí)現(xiàn)文生成圖的例子。
          我們還考慮了一個(gè)更具挑戰(zhàn)性的任務(wù),即根據(jù)多個(gè)連貫的句子來生成一系列的圖像。如圖 8 所示,雖然每張圖片都是獨(dú)立生成的,但我們可以看到,四張圖片在視覺上是連貫的,風(fēng)格也是一樣的。這表明了 BriVL 模型的另一個(gè)優(yōu)勢(shì):盡管圖像中的環(huán)境和背景很難在相關(guān)文本中明確提及,但在我們的大規(guī)模多模態(tài)預(yù)訓(xùn)練中,它們并沒有被忽略。 

          圖片

          圖 8:我們的 BriVL 借助 VQGAN 進(jìn)行一系列連貫內(nèi)容生成的例子。
          在圖 9 中,我們選擇了一些人類很少見到的概念 / 場(chǎng)景(如 “熊熊燃燒的大海” 和“發(fā)光的森林”),甚至是那些在現(xiàn)實(shí)生活中不存在的概念 / 場(chǎng)景(如 “賽博朋克風(fēng)格的城市” 和“云端的城堡”)。這證明了 BriVL 的優(yōu)越性能不是來自于對(duì)預(yù)訓(xùn)練數(shù)據(jù)的過擬合,因?yàn)檫@里輸入的概念 / 場(chǎng)景在現(xiàn)實(shí)生活中甚至不存在(當(dāng)然極大可能就不在預(yù)訓(xùn)練數(shù)據(jù)集中)。此外,這些生成的例子再次驗(yàn)證了在弱語(yǔ)義相關(guān)數(shù)據(jù)上預(yù)訓(xùn)練 BriVL 的優(yōu)勢(shì)(因?yàn)榧?xì)粒度的區(qū)域單詞對(duì)齊會(huì)損害 BriVL 的想象能力)。 

          圖片

          圖 9:更多 BriVL 的文生成圖結(jié)果,其中的概念 / 場(chǎng)景都是人類不??吹缴踔潦乾F(xiàn)實(shí)生活中不存在的。
          此外,我們還將 BriVL 應(yīng)用于遙感圖像零樣本分類、中文新聞零樣本分類、視覺問答等多個(gè)下游任務(wù),均取得一些有意思的結(jié)果,具體請(qǐng)見我們的論文原文。
          結(jié)論與討論
          我們開發(fā)了一個(gè)名為 BriVL 的大規(guī)模多模態(tài)基礎(chǔ)模型,該模型在 6.5 億的弱語(yǔ)義相關(guān)圖文上進(jìn)行了訓(xùn)練。我們通過神經(jīng)網(wǎng)絡(luò)可視化和文生成圖直觀展示了對(duì)齊的圖文嵌入空間。此外,在其他下游任務(wù)上的實(shí)驗(yàn)也顯示了 BriVL 的跨領(lǐng)域?qū)W習(xí) / 遷移能力以及多模態(tài)學(xué)習(xí)相對(duì)于單模態(tài)學(xué)習(xí)的優(yōu)勢(shì)。特別地,我們發(fā)現(xiàn) BriVL 似乎獲得了一定地想象和推理能力。我們相信這些優(yōu)勢(shì)主要來自于 BriVL 所遵循的弱語(yǔ)義相關(guān)假設(shè)。也就是說,通過挖掘弱相關(guān)圖文對(duì)中復(fù)雜的人類情感和思想,我們的 BriVL 變得更加具有認(rèn)知性。
          我們相信,我們向通用人工智能邁出的這一步,不僅會(huì)對(duì)人工智能領(lǐng)域本身產(chǎn)生廣泛的影響,也會(huì)對(duì)各個(gè) AI + 領(lǐng)域產(chǎn)生影響。對(duì)于人工智能的研究,基于我們 GPU 資源節(jié)約型的多模態(tài)預(yù)訓(xùn)練框架,研究人員可以很容易地將 BriVL 擴(kuò)展到更大的量級(jí)和更多的模態(tài),以得到更通用的基礎(chǔ)模型。在大規(guī)模多模態(tài)基礎(chǔ)模型的幫助下,研究人員也更容易探索新的任務(wù)(尤其是那些沒有足夠人類標(biāo)注的樣本)。對(duì)于 AI + 領(lǐng)域,由于其強(qiáng)大的泛化能力,基礎(chǔ)模型可以快速適應(yīng)特定的工作環(huán)境。例如,在醫(yī)療保健領(lǐng)域,多模態(tài)基礎(chǔ)模型可以充分利用病例的多模態(tài)數(shù)據(jù)來提高診斷的準(zhǔn)確性;在神經(jīng)科學(xué)領(lǐng)域,多模態(tài)基礎(chǔ)模型甚至可能可以幫助找出多模態(tài)信息如何在人腦中融合的機(jī)制,因?yàn)槿斯ど窠?jīng)網(wǎng)絡(luò)比人類大腦中的真實(shí)神經(jīng)系統(tǒng)更容易研究。
          盡管如此,多模態(tài)基礎(chǔ)模型仍然面臨著一些風(fēng)險(xiǎn)和挑戰(zhàn)。基礎(chǔ)模型可能會(huì)學(xué)到對(duì)某些事情的偏見和成見,這些問題應(yīng)該在模型訓(xùn)練前仔細(xì)處理,并在下游應(yīng)用中進(jìn)行監(jiān)控和解決。此外,隨著基礎(chǔ)模型掌握越來越多的能力,也要小心它被心懷不軌的人濫用,避免對(duì)社會(huì)產(chǎn)生負(fù)面影響。此外,在基礎(chǔ)模型地未來研究上,也存在一些挑戰(zhàn):如何開發(fā)更深入的模型可解釋性工具,如何用更多的模態(tài)構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集,以及如何用更有效的微調(diào)技術(shù)將基礎(chǔ)模型應(yīng)用于各個(gè)下游任務(wù)。
          本篇論文作者為:費(fèi)楠益、盧志武、高一釗、楊國(guó)興、霍宇琦、溫靜遠(yuǎn)、盧浩宇、宋睿華、高欣、向滔、孫浩、文繼榮;共同通訊作者為人大高瓴人工智能學(xué)院盧志武教授、孫浩長(zhǎng)聘副教授、文繼榮教授。論文發(fā)表于國(guó)際綜合期刊《自然 · 通訊》(英文名:Nature Communications,簡(jiǎn)稱 Nat Commun)。本篇論文由費(fèi)楠益解讀。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉