色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<source id="htsf3"><tr id="htsf3"></tr></source>

<li id="htsf3"></li>

<bdo id="htsf3"></bdo>

"); //-->

博客專欄

EEPW首頁 > 博客 > 視頻版Stable Diffusion：英偉達(dá)做到最高1280×2048、最長4.7秒

視頻版Stable Diffusion：英偉達(dá)做到最高1280×2048、最長4.7秒

發(fā)布人：計(jì)算機(jī)視覺工坊時間：2023-04-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

在生成式 AI 盛行的今天，英偉達(dá)在文本生成視頻領(lǐng)域更進(jìn)了一步，實(shí)現(xiàn)了更高分辨率、更長時間。

要說現(xiàn)階段誰是 AI 領(lǐng)域的「當(dāng)紅辣子雞」？生成式 AI 舍我其誰。包括 ChatGPT 等對話式 AI 聊天應(yīng)用、Stable Diffusion 等 AI 繪畫神器在內(nèi)，生成式 AI 展示的效果深深地抓住了人們的眼球。

我們以圖像生成模型為例，得益于底層建模技術(shù)最近的突破，它們收獲了前所未有的關(guān)注。如今，最強(qiáng)大的模型構(gòu)建在生成對抗網(wǎng)絡(luò)、自回歸 transformer 和擴(kuò)散模型（diffusion model, DM）之上。其中擴(kuò)散模型的優(yōu)勢在于能夠提供穩(wěn)健和可擴(kuò)展的訓(xùn)練目標(biāo)，并且參數(shù)密集度通常低于基于 transformer 的競品模型。

雖然圖像領(lǐng)域取得了長足進(jìn)步，但視頻建模卻落后了，這主要?dú)w咎于視頻數(shù)據(jù)訓(xùn)練的高昂計(jì)算成本以及缺乏大規(guī)模公開可用的通用數(shù)據(jù)集。目前視頻合成雖有豐富的研究文獻(xiàn)，但包括先前視頻 DM 在內(nèi)的大多數(shù)工作僅能生成分辨率較低且往往較短的視頻。

因此，如何生成分辨率更高、更長的視頻成為一個熱門研究課題。近日慕尼黑大學(xué)、英偉達(dá)等機(jī)構(gòu)的研究者利用潛在擴(kuò)散模型（latent diffusion model, LDM）實(shí)現(xiàn)了高分辨率的長視頻合成。相關(guān)論文已經(jīng)發(fā)表在 arXiv 上。

項(xiàng)目主頁：https://research.nvidia.com/labs/toronto-ai/VideoLDM/
論文地址：https://arxiv.org/pdf/2304.08818.pdf

在論文中，研究者將視頻模型應(yīng)用于真實(shí)世界問題并生成了高分辨率的長視頻。他們關(guān)注兩個相關(guān)的視頻生成問題，一是高分辨率真實(shí)世界駕駛數(shù)據(jù)的視頻合成，其在自動駕駛環(huán)境中作為模擬引擎具有巨大潛力；二是文本指導(dǎo)視頻生成，用于創(chuàng)意內(nèi)容生成。

為此，研究者提出了視頻潛在擴(kuò)散模型（Video LDM），并將 LDM 擴(kuò)展到了計(jì)算密集型任務(wù) —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比，他們僅在圖像上預(yù)訓(xùn)練 Video LDM（或者使用可用的預(yù)訓(xùn)練圖像 LDM），從而允許利用大規(guī)模圖像數(shù)據(jù)集。

接著將時間維度引入潛在空間 DM、并在編碼圖像序列（即視頻）上僅訓(xùn)練這些時間層的同時固定預(yù)訓(xùn)練空間層，從而將 LDM 圖像生成器轉(zhuǎn)換為視頻生成器（下圖左）。最后以類似方式微調(diào) LDM 的****以實(shí)現(xiàn)像素空間中的時間一致性（下圖右）。

此外，為了進(jìn)一步提高空間分辨率，研究者對像素空間和潛在 DM 上采樣器進(jìn)行時間對齊，將它們轉(zhuǎn)換為時間一致的視頻超分辨率模型。在 LDM 的基礎(chǔ)上，本文方法以計(jì)算和內(nèi)存高效的方式生成了全局連貫的長視頻。對于非常高分辨率的合成，視頻上采樣器只需要在本地運(yùn)行，保持了較低的訓(xùn)練和計(jì)算要求。

最后，研究者進(jìn)行了消融實(shí)驗(yàn)，在分辨率為 512×1024 的真實(shí)駕駛場景視頻上對其方法進(jìn)行了測試，實(shí)現(xiàn)了 SOTA 視頻質(zhì)量，并合成了幾分鐘的視頻。此外，他們還微調(diào)了 Stable Diffusion，將它變成一個高效、強(qiáng)大的文本到視頻生成器，分辨率最高可達(dá) 1280 × 2048。

通過將經(jīng)過訓(xùn)練的時間層遷移至不同的微調(diào)文本到圖像 LDM，研究者首次展示了個性化的文本到視頻生成，并希望自己的工作為高效的數(shù)字內(nèi)容創(chuàng)建和自動駕駛模擬開辟新的途徑。

我們來看幾個文本到視頻生成示例，比如「彈電吉他的泰迪熊、高分辨率、4K」。

比如「海浪拍打著一座孤獨(dú)的燈塔、不詳?shù)臒艄狻埂?/span>

再比如「夕陽下獨(dú)自穿行在迷霧森林中的旅行者」。

方法解讀：潛在視頻擴(kuò)散模型

這部分中，研究者描述了為實(shí)現(xiàn)高分辨率視頻合成，對預(yù)訓(xùn)練圖像 LDM 和 DM 上采樣器進(jìn)行視頻微調(diào)。

將潛在圖像轉(zhuǎn)換為視頻生成器

研究者高效訓(xùn)練視頻生成模型的關(guān)鍵思路在于：重用預(yù)訓(xùn)練的固定圖像生成模型，并利用了由參數(shù) θ 參數(shù)化的 LDM。具體而言，他們實(shí)現(xiàn)了兩個不同的時間混合層，即時間注意力和基于 3D 卷積的殘差塊。研究者使用正弦嵌入為模型提供了時間位置編碼。具體流程如下圖 4 所示。

用于長視頻生成的預(yù)測模型

研究者還訓(xùn)練模型作為給定多個（首個）S 上下文幀的預(yù)測模型，通過引入時間二元掩膜 m_S 來實(shí)現(xiàn)。該掩膜 mask 了模型必須預(yù)測的 T ? S 幀。此外研究者將該掩膜和 masked 編碼視頻幀饋入到模型中進(jìn)行調(diào)節(jié)。

在推理過程中，為了生成長視頻，研究者迭代地應(yīng)用了采樣過程，將最新的預(yù)測重新用作新的上下文。第一個初始序列通過從基礎(chǔ)圖像模型中合成單個上下文幀來生成，并基于此生成了一個新序列。然后以兩個上下文幀為條件對動作進(jìn)行編碼。

用于高幀率的時間插值

高分辨率的特點(diǎn)不僅在于高空間分辨率，還在于高時間分辨率，即高幀率。為此研究者將高分辨率視頻的合成過程分為了兩部分，第一部分包括上文中的將潛在圖像轉(zhuǎn)換為視頻生成器和用于長視頻的預(yù)測模型，它們可以生成具有較大語義變化的關(guān)鍵幀，但受限于內(nèi)存只能在較低幀率運(yùn)行。第二部分則引入了一個額外模型，其任務(wù)是在給定關(guān)鍵幀之間進(jìn)行插值。

研究者在實(shí)現(xiàn)過程中使用了掩膜調(diào)節(jié)機(jī)制。不過與預(yù)測任務(wù)不同，他們需要 mask 進(jìn)行插值的幀，否則該機(jī)制保持不變，即圖像模型被細(xì)化為視頻插值模型。

超分辨率（SR）模型的時間微調(diào)

盡管 LDM 機(jī)制提供了很好的原始分辨率，但研究者的目標(biāo)是將它推進(jìn)到百萬像素級別。他們從級聯(lián) DM 中獲得靈感，并使用 DM 將 Video LDM 輸出放大 4 倍。對于駕駛視頻合成實(shí)驗(yàn)，研究者使用了像素空間 DM，并將分辨率擴(kuò)大至 512×1024；對于文本到視頻模型，他們使用了 LDM 上采樣器，將分辨率擴(kuò)大至 1280 × 2048。

實(shí)驗(yàn)結(jié)果

研究者專注于駕駛場景視頻生成和文本到視頻，因此使用了兩個相關(guān)數(shù)據(jù)集，一個是真實(shí)駕駛場景（RDS）視頻的內(nèi)部數(shù)據(jù)集；另一個是 WebVid-10M 數(shù)據(jù)集，它將公開可用的 Stable Diffusion 圖像 LDM 轉(zhuǎn)換為了 Video LDM。

高分辨率駕駛視頻合成

研究者在 RDS 數(shù)據(jù)集上訓(xùn)練 Video LDM pipeline，包括一個 4 倍像素空間視頻上采樣器。下表 1 顯示了無上采樣器時，128×256 分辨率下 Video LDM 的主要結(jié)果。研究者展示了有和無擁擠和白天 / 夜晚?xiàng)l件下其模型的性能?？梢钥吹?，Video LDM 通常優(yōu)于 LVG，并且在一定條件下進(jìn)一步降低了 FVD。

下表 2 顯示了人類評估結(jié)果。就真實(shí)性而言，研究者的樣本通常優(yōu)于 LVG，并且來自條件模型的樣本也優(yōu)于無條件樣本。

研究者將其視頻微調(diào)像素空間上采樣器與獨(dú)立逐幀圖像上采樣做了比較，并使用了 128 × 256 30 fps 的真值視頻進(jìn)行調(diào)節(jié)，如下表 3 所示。

在下圖左 1（底部）和圖右 7（頂部）中，研究者展示了來自組合 Video LDM 和視頻上采樣器模型的條件樣本。他們生成了高質(zhì)量的視頻。此外，研究者使用其預(yù)測方法生成了時間連貫的多分鐘高分辨率駕駛長視頻。

用 Stable Diffusion 做文本到視頻生成

研究者沒有先訓(xùn)練自己的 Image LDM 主干，其 Video LDM 方法可以利用并將現(xiàn)有的 Image LDM 轉(zhuǎn)換為視頻生成器。在本文中，他們將 Stable Diffusion 轉(zhuǎn)換為了文本到視頻生成器。

具體地，研究者使用 WebVid-10M 文本字幕視頻數(shù)據(jù)集，訓(xùn)練了一個時間對齊版本的 Stable Diffusion 來做文本條件視頻生成。他們在來自 WebVid 的幀上對 Stable Diffusion 的空間層進(jìn)行簡單微調(diào)，然后插入時間對齊層并訓(xùn)練它們（分辨率為 320 × 512）。研究者還在這些對齊層中添加了文本條件。

此外，研究者進(jìn)一步對公開可用的潛在 Stable Diffusion 上采樣器進(jìn)行視頻微調(diào)，使它支持 4 倍放大并生成分辨率為 1280 × 2048 的視頻。研究者生成了由 113 幀組成的視頻，并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相關(guān)樣本如上圖 1 和下圖 6 所示。

更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請參閱原論文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

iPhone 16將不會預(yù)裝AI功能？計(jì)劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會體育 | 2024-07-26

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

WTC-AI太陽能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

WTC-AI型太陽能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計(jì)算安森美 AI 機(jī)器視覺 | 2024-07-31

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)