視頻版Stable Diffusion:英偉達(dá)做到最高1280×2048、最長4.7秒
在生成式 AI 盛行的今天,英偉達(dá)在文本生成視頻領(lǐng)域更進(jìn)了一步,實(shí)現(xiàn)了更高分辨率、更長時間。
要說現(xiàn)階段誰是 AI 領(lǐng)域的「當(dāng)紅辣子雞」?生成式 AI 舍我其誰。包括 ChatGPT 等對話式 AI 聊天應(yīng)用、Stable Diffusion 等 AI 繪畫神器在內(nèi),生成式 AI 展示的效果深深地抓住了人們的眼球。
我們以圖像生成模型為例,得益于底層建模技術(shù)最近的突破,它們收獲了前所未有的關(guān)注。如今,最強(qiáng)大的模型構(gòu)建在生成對抗網(wǎng)絡(luò)、自回歸 transformer 和擴(kuò)散模型(diffusion model, DM)之上。其中擴(kuò)散模型的優(yōu)勢在于能夠提供穩(wěn)健和可擴(kuò)展的訓(xùn)練目標(biāo),并且參數(shù)密集度通常低于基于 transformer 的競品模型。
雖然圖像領(lǐng)域取得了長足進(jìn)步,但視頻建模卻落后了,這主要?dú)w咎于視頻數(shù)據(jù)訓(xùn)練的高昂計(jì)算成本以及缺乏大規(guī)模公開可用的通用數(shù)據(jù)集。目前視頻合成雖有豐富的研究文獻(xiàn),但包括先前視頻 DM 在內(nèi)的大多數(shù)工作僅能生成分辨率較低且往往較短的視頻。
因此,如何生成分辨率更高、更長的視頻成為一個熱門研究課題。近日慕尼黑大學(xué)、英偉達(dá)等機(jī)構(gòu)的研究者利用潛在擴(kuò)散模型(latent diffusion model, LDM)實(shí)現(xiàn)了高分辨率的長視頻合成。相關(guān)論文已經(jīng)發(fā)表在 arXiv 上。
項(xiàng)目主頁:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
論文地址:https://arxiv.org/pdf/2304.08818.pdf
在論文中,研究者將視頻模型應(yīng)用于真實(shí)世界問題并生成了高分辨率的長視頻。他們關(guān)注兩個相關(guān)的視頻生成問題,一是高分辨率真實(shí)世界駕駛數(shù)據(jù)的視頻合成,其在自動駕駛環(huán)境中作為模擬引擎具有巨大潛力;二是文本指導(dǎo)視頻生成,用于創(chuàng)意內(nèi)容生成。
為此,研究者提出了視頻潛在擴(kuò)散模型(Video LDM),并將 LDM 擴(kuò)展到了計(jì)算密集型任務(wù) —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比,他們僅在圖像上預(yù)訓(xùn)練 Video LDM(或者使用可用的預(yù)訓(xùn)練圖像 LDM),從而允許利用大規(guī)模圖像數(shù)據(jù)集。
接著將時間維度引入潛在空間 DM、并在編碼圖像序列(即視頻)上僅訓(xùn)練這些時間層的同時固定預(yù)訓(xùn)練空間層,從而將 LDM 圖像生成器轉(zhuǎn)換為視頻生成器(下圖左)。最后以類似方式微調(diào) LDM 的****以實(shí)現(xiàn)像素空間中的時間一致性(下圖右)。
此外,為了進(jìn)一步提高空間分辨率,研究者對像素空間和潛在 DM 上采樣器進(jìn)行時間對齊,將它們轉(zhuǎn)換為時間一致的視頻超分辨率模型。在 LDM 的基礎(chǔ)上,本文方法以計(jì)算和內(nèi)存高效的方式生成了全局連貫的長視頻。對于非常高分辨率的合成,視頻上采樣器只需要在本地運(yùn)行,保持了較低的訓(xùn)練和計(jì)算要求。
最后,研究者進(jìn)行了消融實(shí)驗(yàn),在分辨率為 512×1024 的真實(shí)駕駛場景視頻上對其方法進(jìn)行了測試,實(shí)現(xiàn)了 SOTA 視頻質(zhì)量,并合成了幾分鐘的視頻。此外,他們還微調(diào)了 Stable Diffusion,將它變成一個高效、強(qiáng)大的文本到視頻生成器,分辨率最高可達(dá) 1280 × 2048。
通過將經(jīng)過訓(xùn)練的時間層遷移至不同的微調(diào)文本到圖像 LDM,研究者首次展示了個性化的文本到視頻生成,并希望自己的工作為高效的數(shù)字內(nèi)容創(chuàng)建和自動駕駛模擬開辟新的途徑。
我們來看幾個文本到視頻生成示例,比如「彈電吉他的泰迪熊、高分辨率、4K」。
比如「海浪拍打著一座孤獨(dú)的燈塔、不詳?shù)臒艄狻埂?/span>
再比如「夕陽下獨(dú)自穿行在迷霧森林中的旅行者」。
方法解讀:潛在視頻擴(kuò)散模型
這部分中,研究者描述了為實(shí)現(xiàn)高分辨率視頻合成,對預(yù)訓(xùn)練圖像 LDM 和 DM 上采樣器進(jìn)行視頻微調(diào)。
將潛在圖像轉(zhuǎn)換為視頻生成器
研究者高效訓(xùn)練視頻生成模型的關(guān)鍵思路在于:重用預(yù)訓(xùn)練的固定圖像生成模型,并利用了由參數(shù) θ 參數(shù)化的 LDM。具體而言,他們實(shí)現(xiàn)了兩個不同的時間混合層,即時間注意力和基于 3D 卷積的殘差塊。研究者使用正弦嵌入為模型提供了時間位置編碼。具體流程如下圖 4 所示。
用于長視頻生成的預(yù)測模型
研究者還訓(xùn)練模型作為給定多個(首個)S 上下文幀的預(yù)測模型,通過引入時間二元掩膜 m_S 來實(shí)現(xiàn)。該掩膜 mask 了模型必須預(yù)測的 T ? S 幀。此外研究者將該掩膜和 masked 編碼視頻幀饋入到模型中進(jìn)行調(diào)節(jié)。
在推理過程中,為了生成長視頻,研究者迭代地應(yīng)用了采樣過程,將最新的預(yù)測重新用作新的上下文。第一個初始序列通過從基礎(chǔ)圖像模型中合成單個上下文幀來生成,并基于此生成了一個新序列。然后以兩個上下文幀為條件對動作進(jìn)行編碼。
用于高幀率的時間插值
高分辨率的特點(diǎn)不僅在于高空間分辨率,還在于高時間分辨率,即高幀率。為此研究者將高分辨率視頻的合成過程分為了兩部分,第一部分包括上文中的將潛在圖像轉(zhuǎn)換為視頻生成器和用于長視頻的預(yù)測模型,它們可以生成具有較大語義變化的關(guān)鍵幀,但受限于內(nèi)存只能在較低幀率運(yùn)行。第二部分則引入了一個額外模型,其任務(wù)是在給定關(guān)鍵幀之間進(jìn)行插值。
研究者在實(shí)現(xiàn)過程中使用了掩膜調(diào)節(jié)機(jī)制。不過與預(yù)測任務(wù)不同,他們需要 mask 進(jìn)行插值的幀,否則該機(jī)制保持不變,即圖像模型被細(xì)化為視頻插值模型。
超分辨率(SR)模型的時間微調(diào)
盡管 LDM 機(jī)制提供了很好的原始分辨率,但研究者的目標(biāo)是將它推進(jìn)到百萬像素級別。他們從級聯(lián) DM 中獲得靈感,并使用 DM 將 Video LDM 輸出放大 4 倍。對于駕駛視頻合成實(shí)驗(yàn),研究者使用了像素空間 DM,并將分辨率擴(kuò)大至 512×1024;對于文本到視頻模型,他們使用了 LDM 上采樣器,將分辨率擴(kuò)大至 1280 × 2048。
實(shí)驗(yàn)結(jié)果
研究者專注于駕駛場景視頻生成和文本到視頻,因此使用了兩個相關(guān)數(shù)據(jù)集,一個是真實(shí)駕駛場景(RDS)視頻的內(nèi)部數(shù)據(jù)集;另一個是 WebVid-10M 數(shù)據(jù)集,它將公開可用的 Stable Diffusion 圖像 LDM 轉(zhuǎn)換為了 Video LDM。
高分辨率駕駛視頻合成
研究者在 RDS 數(shù)據(jù)集上訓(xùn)練 Video LDM pipeline,包括一個 4 倍像素空間視頻上采樣器。下表 1 顯示了無上采樣器時,128×256 分辨率下 Video LDM 的主要結(jié)果。研究者展示了有和無擁擠和白天 / 夜晚?xiàng)l件下其模型的性能??梢钥吹?,Video LDM 通常優(yōu)于 LVG,并且在一定條件下進(jìn)一步降低了 FVD。
下表 2 顯示了人類評估結(jié)果。就真實(shí)性而言,研究者的樣本通常優(yōu)于 LVG,并且來自條件模型的樣本也優(yōu)于無條件樣本。
研究者將其視頻微調(diào)像素空間上采樣器與獨(dú)立逐幀圖像上采樣做了比較,并使用了 128 × 256 30 fps 的真值視頻進(jìn)行調(diào)節(jié),如下表 3 所示。
在下圖左 1(底部)和圖右 7(頂部)中,研究者展示了來自組合 Video LDM 和視頻上采樣器模型的條件樣本。他們生成了高質(zhì)量的視頻。此外,研究者使用其預(yù)測方法生成了時間連貫的多分鐘高分辨率駕駛長視頻。
用 Stable Diffusion 做文本到視頻生成
研究者沒有先訓(xùn)練自己的 Image LDM 主干,其 Video LDM 方法可以利用并將現(xiàn)有的 Image LDM 轉(zhuǎn)換為視頻生成器。在本文中,他們將 Stable Diffusion 轉(zhuǎn)換為了文本到視頻生成器。
具體地,研究者使用 WebVid-10M 文本字幕視頻數(shù)據(jù)集,訓(xùn)練了一個時間對齊版本的 Stable Diffusion 來做文本條件視頻生成。他們在來自 WebVid 的幀上對 Stable Diffusion 的空間層進(jìn)行簡單微調(diào),然后插入時間對齊層并訓(xùn)練它們(分辨率為 320 × 512)。研究者還在這些對齊層中添加了文本條件。
此外,研究者進(jìn)一步對公開可用的潛在 Stable Diffusion 上采樣器進(jìn)行視頻微調(diào),使它支持 4 倍放大并生成分辨率為 1280 × 2048 的視頻。研究者生成了由 113 幀組成的視頻,并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相關(guān)樣本如上圖 1 和下圖 6 所示。
更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請參閱原論文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。