色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 視頻版Stable Diffusion:英偉達(dá)做到最高1280×2048、最長4.7秒

          視頻版Stable Diffusion:英偉達(dá)做到最高1280×2048、最長4.7秒

          發(fā)布人:計(jì)算機(jī)視覺工坊 時間:2023-04-23 來源:工程師 發(fā)布文章
          在生成式 AI 盛行的今天,英偉達(dá)在文本生成視頻領(lǐng)域更進(jìn)了一步,實(shí)現(xiàn)了更高分辨率、更長時間。


          要說現(xiàn)階段誰是 AI 領(lǐng)域的「當(dāng)紅辣子雞」?生成式 AI 舍我其誰。包括 ChatGPT 等對話式 AI 聊天應(yīng)用、Stable Diffusion 等 AI 繪畫神器在內(nèi),生成式 AI 展示的效果深深地抓住了人們的眼球。


          我們以圖像生成模型為例,得益于底層建模技術(shù)最近的突破,它們收獲了前所未有的關(guān)注。如今,最強(qiáng)大的模型構(gòu)建在生成對抗網(wǎng)絡(luò)、自回歸 transformer 和擴(kuò)散模型(diffusion model, DM)之上。其中擴(kuò)散模型的優(yōu)勢在于能夠提供穩(wěn)健和可擴(kuò)展的訓(xùn)練目標(biāo),并且參數(shù)密集度通常低于基于 transformer 的競品模型


          雖然圖像領(lǐng)域取得了長足進(jìn)步,但視頻建模卻落后了,這主要?dú)w咎于視頻數(shù)據(jù)訓(xùn)練的高昂計(jì)算成本以及缺乏大規(guī)模公開可用的通用數(shù)據(jù)集。目前視頻合成雖有豐富的研究文獻(xiàn),但包括先前視頻 DM 在內(nèi)的大多數(shù)工作僅能生成分辨率較低且往往較短的視頻。


          因此,如何生成分辨率更高、更長的視頻成為一個熱門研究課題。近日慕尼黑大學(xué)、英偉達(dá)等機(jī)構(gòu)的研究者利用潛在擴(kuò)散模型(latent diffusion model, LDM)實(shí)現(xiàn)了高分辨率的長視頻合成。相關(guān)論文已經(jīng)發(fā)表在 arXiv 上。


          圖片


          • 項(xiàng)目主頁:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

          • 論文地址:https://arxiv.org/pdf/2304.08818.pdf


          在論文中,研究者將視頻模型應(yīng)用于真實(shí)世界問題并生成了高分辨率的長視頻。他們關(guān)注兩個相關(guān)的視頻生成問題,一是高分辨率真實(shí)世界駕駛數(shù)據(jù)的視頻合成,其在自動駕駛環(huán)境中作為模擬引擎具有巨大潛力;二是文本指導(dǎo)視頻生成,用于創(chuàng)意內(nèi)容生成。


          為此,研究者提出了視頻潛在擴(kuò)散模型(Video LDM),并將 LDM 擴(kuò)展到了計(jì)算密集型任務(wù) —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比,他們僅在圖像上預(yù)訓(xùn)練 Video LDM(或者使用可用的預(yù)訓(xùn)練圖像 LDM),從而允許利用大規(guī)模圖像數(shù)據(jù)集。


          接著將時間維度引入潛在空間 DM、并在編碼圖像序列(即視頻)上僅訓(xùn)練這些時間層的同時固定預(yù)訓(xùn)練空間層,從而將 LDM 圖像生成器轉(zhuǎn)換為視頻生成器(下圖左)。最后以類似方式微調(diào) LDM 的****以實(shí)現(xiàn)像素空間中的時間一致性(下圖右)。


          圖片


          此外,為了進(jìn)一步提高空間分辨率,研究者對像素空間和潛在 DM 上采樣器進(jìn)行時間對齊,將它們轉(zhuǎn)換為時間一致的視頻超分辨率模型。在 LDM 的基礎(chǔ)上,本文方法以計(jì)算和內(nèi)存高效的方式生成了全局連貫的長視頻。對于非常高分辨率的合成,視頻上采樣器只需要在本地運(yùn)行,保持了較低的訓(xùn)練和計(jì)算要求。


          最后,研究者進(jìn)行了消融實(shí)驗(yàn),在分辨率為 512×1024 的真實(shí)駕駛場景視頻上對其方法進(jìn)行了測試,實(shí)現(xiàn)了 SOTA 視頻質(zhì)量,并合成了幾分鐘的視頻。此外,他們還微調(diào)了 Stable Diffusion,將它變成一個高效、強(qiáng)大的文本到視頻生成器,分辨率最高可達(dá) 1280 × 2048。


          通過將經(jīng)過訓(xùn)練的時間層遷移至不同的微調(diào)文本到圖像 LDM,研究者首次展示了個性化的文本到視頻生成,并希望自己的工作為高效的數(shù)字內(nèi)容創(chuàng)建和自動駕駛模擬開辟新的途徑。


          我們來看幾個文本到視頻生成示例,比如「彈電吉他的泰迪熊、高分辨率、4K」。


          圖片


          比如「海浪拍打著一座孤獨(dú)的燈塔、不詳?shù)臒艄狻埂?/span>


          圖片


          再比如「夕陽下獨(dú)自穿行在迷霧森林中的旅行者」。


          圖片


          方法解讀:潛在視頻擴(kuò)散模型


          這部分中,研究者描述了為實(shí)現(xiàn)高分辨率視頻合成,對預(yù)訓(xùn)練圖像 LDM 和 DM 上采樣器進(jìn)行視頻微調(diào)。


          將潛在圖像轉(zhuǎn)換為視頻生成器


          研究者高效訓(xùn)練視頻生成模型的關(guān)鍵思路在于:重用預(yù)訓(xùn)練的固定圖像生成模型,并利用了由參數(shù) θ 參數(shù)化的 LDM。具體而言,他們實(shí)現(xiàn)了兩個不同的時間混合層,即時間注意力和基于 3D 卷積的殘差塊。研究者使用正弦嵌入為模型提供了時間位置編碼。具體流程如下圖 4 所示。


          圖片


          用于長視頻生成的預(yù)測模型


          研究者還訓(xùn)練模型作為給定多個(首個)S 上下文幀的預(yù)測模型,通過引入時間二元掩膜 m_S 來實(shí)現(xiàn)。該掩膜 mask 了模型必須預(yù)測的 T ? S 幀。此外研究者將該掩膜和 masked 編碼視頻幀饋入到模型中進(jìn)行調(diào)節(jié)。


          在推理過程中,為了生成長視頻,研究者迭代地應(yīng)用了采樣過程,將最新的預(yù)測重新用作新的上下文。第一個初始序列通過從基礎(chǔ)圖像模型中合成單個上下文幀來生成,并基于此生成了一個新序列。然后以兩個上下文幀為條件對動作進(jìn)行編碼。


          用于高幀率的時間插值


          高分辨率的特點(diǎn)不僅在于高空間分辨率,還在于高時間分辨率,即高幀率。為此研究者將高分辨率視頻的合成過程分為了兩部分,第一部分包括上文中的將潛在圖像轉(zhuǎn)換為視頻生成器和用于長視頻的預(yù)測模型,它們可以生成具有較大語義變化的關(guān)鍵幀,但受限于內(nèi)存只能在較低幀率運(yùn)行。第二部分則引入了一個額外模型,其任務(wù)是在給定關(guān)鍵幀之間進(jìn)行插值


          研究者在實(shí)現(xiàn)過程中使用了掩膜調(diào)節(jié)機(jī)制。不過與預(yù)測任務(wù)不同,他們需要 mask 進(jìn)行插值的幀,否則該機(jī)制保持不變,即圖像模型被細(xì)化為視頻插值模型。


          超分辨率(SR)模型的時間微調(diào)


          盡管 LDM 機(jī)制提供了很好的原始分辨率,但研究者的目標(biāo)是將它推進(jìn)到百萬像素級別。他們從級聯(lián) DM 中獲得靈感,并使用 DM 將 Video LDM 輸出放大 4 倍。對于駕駛視頻合成實(shí)驗(yàn),研究者使用了像素空間 DM,并將分辨率擴(kuò)大至 512×1024;對于文本到視頻模型,他們使用了 LDM 上采樣器,將分辨率擴(kuò)大至 1280 × 2048。


          實(shí)驗(yàn)結(jié)果


          研究者專注于駕駛場景視頻生成和文本到視頻,因此使用了兩個相關(guān)數(shù)據(jù)集,一個是真實(shí)駕駛場景(RDS)視頻的內(nèi)部數(shù)據(jù)集;另一個是 WebVid-10M 數(shù)據(jù)集,它將公開可用的 Stable Diffusion 圖像 LDM 轉(zhuǎn)換為了 Video LDM。


          高分辨率駕駛視頻合成


          研究者在 RDS 數(shù)據(jù)集上訓(xùn)練 Video LDM pipeline,包括一個 4 倍像素空間視頻上采樣器。下表 1 顯示了無上采樣器時,128×256 分辨率下 Video LDM 的主要結(jié)果。研究者展示了有和無擁擠和白天 / 夜晚?xiàng)l件下其模型的性能??梢钥吹?,Video LDM 通常優(yōu)于 LVG,并且在一定條件下進(jìn)一步降低了 FVD。


          圖片


          下表 2 顯示了人類評估結(jié)果。就真實(shí)性而言,研究者的樣本通常優(yōu)于 LVG,并且來自條件模型的樣本也優(yōu)于無條件樣本。


          圖片


          研究者將其視頻微調(diào)像素空間上采樣器與獨(dú)立逐幀圖像上采樣做了比較,并使用了 128 × 256 30 fps 的真值視頻進(jìn)行調(diào)節(jié),如下表 3 所示。


          圖片


          在下圖左 1(底部)和圖右 7(頂部)中,研究者展示了來自組合 Video LDM 和視頻上采樣器模型的條件樣本。他們生成了高質(zhì)量的視頻。此外,研究者使用其預(yù)測方法生成了時間連貫的多分鐘高分辨率駕駛長視頻。


          圖片


          用 Stable Diffusion 做文本到視頻生成


          研究者沒有先訓(xùn)練自己的 Image LDM 主干,其 Video LDM 方法可以利用并將現(xiàn)有的 Image LDM 轉(zhuǎn)換為視頻生成器。在本文中,他們將 Stable Diffusion 轉(zhuǎn)換為了文本到視頻生成器。


          具體地,研究者使用 WebVid-10M 文本字幕視頻數(shù)據(jù)集,訓(xùn)練了一個時間對齊版本的 Stable Diffusion 來做文本條件視頻生成。他們在來自 WebVid 的幀上對 Stable Diffusion 的空間層進(jìn)行簡單微調(diào),然后插入時間對齊層并訓(xùn)練它們(分辨率為 320 × 512)。研究者還在這些對齊層中添加了文本條件。


          此外,研究者進(jìn)一步對公開可用的潛在 Stable Diffusion 上采樣器進(jìn)行視頻微調(diào),使它支持 4 倍放大并生成分辨率為 1280 × 2048 的視頻。研究者生成了由 113 幀組成的視頻,并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相關(guān)樣本如上圖 1 和下圖 6 所示。


          圖片

          更多技術(shù)和實(shí)驗(yàn)細(xì)節(jié)請參閱原論文。



          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉