色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > NüWA:女媧算法,多模態(tài)預(yù)訓(xùn)練模型,大殺四方!

          NüWA:女媧算法,多模態(tài)預(yù)訓(xùn)練模型,大殺四方!

          發(fā)布人:計算機視覺工坊 時間:2021-12-15 來源:工程師 發(fā)布文章

          1.png

          論文地址:https://arxiv.org/abs/2111.12417

          源代碼:https:// github.com/microsoft/NUWA

          一、前言

          今天分享的論文,主要提出了一個統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型,稱為NüWA,可以為各種視覺合成任務(wù)生成新的或操縱現(xiàn)有的視覺數(shù)據(jù)(即圖像和視頻)。針對不同場景同時覆蓋語言、圖像和視頻,設(shè)計了3D Transformer編碼器-****框架,不僅可以將視頻作為3D數(shù)據(jù)處理,還可以分別將文本和圖像作為1D和2D數(shù)據(jù)進行適配。還提出了3D Nearby Attention(3DNA)機制來考慮視覺數(shù)據(jù)的性質(zhì)并降低計算復(fù)雜度。在8個下游任務(wù)上評估NüWA。與幾個強大的基線相比,NüWA在文本到圖像生成、文本到視頻生成、視頻預(yù)測等方面取得了最先進的結(jié)果。此外,它還顯示了令人驚訝的良好的文本零樣本能力——引導(dǎo)圖像和視頻處理任務(wù)。

          2.png

          8個任務(wù)的案例

          二、背景

          如今,網(wǎng)絡(luò)變得比以往任何時候都更加視覺化,圖像和視頻已成為新的信息載體,并已被用于許多實際應(yīng)用中。在此背景下,視覺合成正成為越來越受歡迎的研究課題,其目的是構(gòu)建可以為各種視覺場景生成新的或操縱現(xiàn)有視覺數(shù)據(jù)(即圖像和視頻)的模型。

          自回歸模型【Auto-regressive models】在視覺合成任務(wù)中發(fā)揮著重要作用,因為與GAN相比,它們具有顯式的密度建模和穩(wěn)定的訓(xùn)練優(yōu)勢。早期的視覺自回歸模型,如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer,都是以“pixel-by-pixel”的方式進行視覺合成的。然而,由于它們在高維視覺數(shù)據(jù)上的高計算成本,這些方法只能應(yīng)用于低分辨率的圖像或視頻,并且難以擴展。

          最近,隨著VQ-VAE作為離散視覺標(biāo)記化方法的出現(xiàn),高效和大規(guī)模的預(yù)訓(xùn)練可以應(yīng)用于圖像的視覺合成任務(wù)(例如DALL-E和CogView) 和視頻(例如GODIVA)。盡管取得了巨大的成功,但此類解決方案仍然存在局限性——它們分別處理圖像和視頻,并專注于生成它們中的任何一個。這限制了模型從圖像和視頻數(shù)據(jù)中受益。

          三、NüWA的表現(xiàn)

          Text-To-Image(T2I)

          3.png

          一只戴著護目鏡,盯著攝像機的狗

          4.png

          Sketch-To-Image (S2I)

          5.png

          草圖轉(zhuǎn)圖片任務(wù),就是根據(jù)草圖的布局,生成對應(yīng)的圖片

          Image Completion (I2I)

          6.png

          圖像補全,如果一副圖片殘缺了,算法可以自動“腦補”出殘缺的部分

          7.jpg

          Image Manipulation (TI2I)

          8.png

          圖片處理,根據(jù)文字描述,處理圖片

          例如:有一副草原的圖片,然后增加一段描述:一匹馬奔跑在草原上,然后就可以生成對應(yīng)的圖片。

          9.png

          Video

          10.png

          四、新框架

          11.png

          NüWA模型的整體架構(gòu)包含一個支持多種條件的 adaptive 編碼器和一個預(yù)訓(xùn)練的****,能夠同時使圖像和視頻的信息。對于圖像補全、視頻預(yù)測、圖像處理和視頻處理任務(wù),將輸入的部分圖像或視頻直接送入****即可。

          12.png

          而編碼****都是基于一個3D NEARBY SELF-ATTENTION(3DNA)建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:

          13.png

          W 表示可學(xué)習(xí)的權(quán)重,X 和 C 分別代表文本、圖像、視頻數(shù)據(jù)的 3D 表示。

          3DNA考慮了完整的鄰近信息,并為每個token動態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關(guān)注部分(藍(lán)色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

          3D DATA REPRESENTATION

          為了涵蓋所有文本、圖像和視頻或其草圖,研究者將它們?nèi)恳暈闃?biāo)記并定義統(tǒng)一的 3D符號X∈Rh×w×s×d,其中h和w表示空間軸(分別為高度和寬度)中的標(biāo)記數(shù)量,s表示時間軸上的標(biāo)記數(shù)量,d是每個標(biāo)記的維度。

          3D NEARBY SELF-ATTENTION

          基于之前的3D數(shù)據(jù)表示定義了一個統(tǒng)一的3D Nearby Self-Attention (3DNA) 模塊,支持自注意力和交叉注意力。首先給出方程中3DNA的定義:

          14.png

          并在如下等式中介紹詳細(xì)的實現(xiàn)。

          15.png16.png17.png

          3D ENCODER-DECODER

          開始介紹基于3DNA構(gòu)建的3D編碼-****。為了在C∈Rh′×w′×s′×din的條件下生成目標(biāo)Y∈Rh×w×s×dout,Y和C的位置編碼通過考慮高度、寬度和時間軸的三個不同的可學(xué)習(xí)詞匯更新。

          18.png

          然后,條件C被輸入到具有L 3DNA層堆棧的編碼器中,以對自注意力交互進行建模,第l層在等式中表示:

          19.png

          同樣,****也是一堆L 3DNA層。****計算生成結(jié)果的自注意力以及生成結(jié)果和條件之間的交叉注意力。第l層表示如下等式。

          20.png

          五、實驗簡單分析

          21.png22.png

          其他實驗可在論文中獲取!

          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: 深度學(xué)習(xí)

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉