色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > NüWA：女媧算法，多模態(tài)預訓練模型，大殺四方！

NüWA：女媧算法，多模態(tài)預訓練模型，大殺四方！

發(fā)布人：計算機視覺工坊時間：2021-12-15 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

論文地址：https://arxiv.org/abs/2111.12417

源代碼：https:// github.com/microsoft/NUWA

一、前言

今天分享的論文，主要提出了一個統(tǒng)一的多模態(tài)預訓練模型，稱為NüWA，可以為各種視覺合成任務生成新的或操縱現(xiàn)有的視覺數(shù)據(jù)（即圖像和視頻）。針對不同場景同時覆蓋語言、圖像和視頻，設計了3D Transformer編碼器-****框架，不僅可以將視頻作為3D數(shù)據(jù)處理，還可以分別將文本和圖像作為1D和2D數(shù)據(jù)進行適配。還提出了3D Nearby Attention(3DNA)機制來考慮視覺數(shù)據(jù)的性質并降低計算復雜度。在8個下游任務上評估NüWA。與幾個強大的基線相比，NüWA在文本到圖像生成、文本到視頻生成、視頻預測等方面取得了最先進的結果。此外，它還顯示了令人驚訝的良好的文本零樣本能力——引導圖像和視頻處理任務。

8個任務的案例

二、背景

如今，網(wǎng)絡變得比以往任何時候都更加視覺化，圖像和視頻已成為新的信息載體，并已被用于許多實際應用中。在此背景下，視覺合成正成為越來越受歡迎的研究課題，其目的是構建可以為各種視覺場景生成新的或操縱現(xiàn)有視覺數(shù)據(jù)（即圖像和視頻）的模型。

自回歸模型【Auto-regressive models】在視覺合成任務中發(fā)揮著重要作用，因為與GAN相比，它們具有顯式的密度建模和穩(wěn)定的訓練優(yōu)勢。早期的視覺自回歸模型，如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer，都是以“pixel-by-pixel”的方式進行視覺合成的。然而，由于它們在高維視覺數(shù)據(jù)上的高計算成本，這些方法只能應用于低分辨率的圖像或視頻，并且難以擴展。

最近，隨著VQ-VAE作為離散視覺標記化方法的出現(xiàn)，高效和大規(guī)模的預訓練可以應用于圖像的視覺合成任務（例如DALL-E和CogView) 和視頻（例如GODIVA）。盡管取得了巨大的成功，但此類解決方案仍然存在局限性——它們分別處理圖像和視頻，并專注于生成它們中的任何一個。這限制了模型從圖像和視頻數(shù)據(jù)中受益。

三、NüWA的表現(xiàn)

Text-To-Image(T2I)

一只戴著護目鏡，盯著攝像機的狗

Sketch-To-Image (S2I)

草圖轉圖片任務，就是根據(jù)草圖的布局，生成對應的圖片

Image Completion (I2I)

圖像補全，如果一副圖片殘缺了，算法可以自動“腦補”出殘缺的部分

Image Manipulation (TI2I)

圖片處理，根據(jù)文字描述，處理圖片

例如：有一副草原的圖片，然后增加一段描述：一匹馬奔跑在草原上，然后就可以生成對應的圖片。

Video

四、新框架

NüWA模型的整體架構包含一個支持多種條件的 adaptive 編碼器和一個預訓練的****，能夠同時使圖像和視頻的信息。對于圖像補全、視頻預測、圖像處理和視頻處理任務，將輸入的部分圖像或視頻直接送入****即可。

而編碼****都是基于一個3D NEARBY SELF-ATTENTION（3DNA）建立的，該機制可以同時考慮空間和時間軸的上局部特性，定義如下：

W 表示可學習的權重，X 和 C 分別代表文本、圖像、視頻數(shù)據(jù)的 3D 表示。

3DNA考慮了完整的鄰近信息，并為每個token動態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關注部分（藍色）比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

3D DATA REPRESENTATION

為了涵蓋所有文本、圖像和視頻或其草圖，研究者將它們全部視為標記并定義統(tǒng)一的 3D符號X∈Rh×w×s×d，其中h和w表示空間軸（分別為高度和寬度）中的標記數(shù)量，s表示時間軸上的標記數(shù)量，d是每個標記的維度。

3D NEARBY SELF-ATTENTION

基于之前的3D數(shù)據(jù)表示定義了一個統(tǒng)一的3D Nearby Self-Attention (3DNA) 模塊，支持自注意力和交叉注意力。首先給出方程中3DNA的定義：

并在如下等式中介紹詳細的實現(xiàn)。

3D ENCODER-DECODER

開始介紹基于3DNA構建的3D編碼-****。為了在C∈Rh′×w′×s′×din的條件下生成目標Y∈Rh×w×s×dout，Y和C的位置編碼通過考慮高度、寬度和時間軸的三個不同的可學習詞匯更新。

然后，條件C被輸入到具有L 3DNA層堆棧的編碼器中，以對自注意力交互進行建模，第l層在等式中表示：

同樣，****也是一堆L 3DNA層。****計算生成結果的自注意力以及生成結果和條件之間的交叉注意力。第l層表示如下等式。

五、實驗簡單分析

圖

其他實驗可在論文中獲?。?/p>

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 深度學習

相關推薦

為什么深度學習如此容易被愚弄？AI研究員正努力修復神經(jīng)網(wǎng)絡缺陷

智能計算 DNN 深度神經(jīng)網(wǎng)絡深度學習 | 2022-07-05

基于深度學習的智能電網(wǎng)短期日負荷曲線預測系統(tǒng)設計與實現(xiàn)

智能計算 202302 深度學習短期負荷預測卷積神經(jīng)網(wǎng)絡長短期記憶網(wǎng)格 Flask | 2023-02-27

射頻系統(tǒng)的深度學習

資源下載 ADI RF DSP 深度學習 | 2020-04-20

深度學習（DeepLearning）

szhlss123 | 2022-08-17

視覺慣性導航融合算法研究進展

物聯(lián)網(wǎng)與傳感器 202302 視覺慣性導航優(yōu)化耦合算法深度學習 | 2023-02-21

深度學習（人工神經(jīng)網(wǎng)絡的研究的概念）

大綠葉 | 2020-07-28

深度強化學習核心技術開發(fā)與應用

szhlss123 | 2022-08-10

Deep Learning中文版

資源下載深度學習中文 | 2019-06-11

TFLite模型的開盲盒體驗

嵌入式系統(tǒng) TFLite 模型推理庫深度學習 | 2024-05-10

深度學習模型的云邊協(xié)同訓練和部署*

智能計算云邊協(xié)同深度學習服務器部署 202212 | 2022-12-22

基于深度學習的跌倒檢測技術對比與分析*

智能計算深度學習跌倒檢測卷積神經(jīng)網(wǎng)絡長短期記憶網(wǎng)絡 202212 | 2022-12-22

基于圖結構的圖像注意力網(wǎng)絡

智能計算 202207 深度學習注意力機制圖像分類人臉識別 | 2022-07-26

什么是人機交互技術？

龍騰AI技術 | 2022-11-02

一種改進的可遷移深度學習模型*

智能計算 202210 可遷移深度學習無標簽 | 2022-10-25

Firefly DL小巧輕便，嵌入式深度學習加速部署

智能計算 Firefly DL 深度學習人工智能 | 2023-12-22

AI深度學習

loof_lripa | 2024-04-20

直覺有害！Facbook最新研究：易于解釋的神經(jīng)元會誤導DNN的學習

智能計算 DNN 深度神經(jīng)網(wǎng)絡深度學習 | 2022-07-05

焦點

推薦視頻

更多>>

技術專區(qū)

關閉