色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 時間、空間可控的視頻生成走進現(xiàn)實,阿里大模型新作VideoComposer火了(1)

          時間、空間可控的視頻生成走進現(xiàn)實,阿里大模型新作VideoComposer火了(1)

          發(fā)布人:機器之心 時間:2023-06-12 來源:工程師 發(fā)布文章

          在 AI 繪畫領域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領了可控圖像生成的理論發(fā)展。但是,業(yè)界在可控視頻生成上的探索依舊處于相對空白的狀態(tài)。


          相比于圖像生成,可控的視頻更加復雜,因為除了視頻內容的空間的可控性之外,還需要滿足時間維度的可控性?;诖?,阿里巴巴和螞蟻集團的研究團隊率先做出嘗試并提出了 VideoComposer,即通過組合式生成范式同時實現(xiàn)視頻在時間和空間兩個維度上的可控性。


          圖片


          • 論文地址:https://arxiv.org/abs/2306.02018

          • 項目主頁:https://videocomposer.github.io


          前段時間,阿里巴巴在魔搭社區(qū)和 Hugging Face 低調開源了文生視頻大模型,意外地受到國內外開發(fā)者的廣泛關注,該模型生成的視頻甚至得到馬斯克本尊的回應,模型在魔搭社區(qū)上連續(xù)多天獲得單日上萬次國際訪問量。


          圖片


          圖片

          Text-to-Video 在推特


          VideoComposer 作為該研究團隊的最新成果,又一次受到了國際社區(qū)的廣泛關注。


          圖片


          圖片


          圖片

          VideoComposer 在推特


          事實上,可控性已經成為視覺內容創(chuàng)作的更高基準,其在定制化的圖像生成方面取得了顯著進步,但在視頻生成領域仍然具有三大挑戰(zhàn):


          • 復雜的數(shù)據(jù)結構,生成的視頻需同時滿足時間維度上的動態(tài)變化的多樣性和時空維度的內容一致性;

          • 復雜的引導條件,已存在的可控的視頻生成需要復雜的條件是無法人為手動構建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實現(xiàn)視頻間的結構遷移,但不能很好的解決可控性問題;

          • 缺乏運動可控性,運動模式是視頻即復雜又抽象的屬性,運動可控性是解決視頻生成可控性的必要條件。


          *博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



          關鍵詞: AI

          相關推薦

          技術專區(qū)

          關閉