時間、空間可控的視頻生成走進現(xiàn)實,阿里大模型新作VideoComposer火了(1)
在 AI 繪畫領域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領了可控圖像生成的理論發(fā)展。但是,業(yè)界在可控視頻生成上的探索依舊處于相對空白的狀態(tài)。
相比于圖像生成,可控的視頻更加復雜,因為除了視頻內容的空間的可控性之外,還需要滿足時間維度的可控性?;诖?,阿里巴巴和螞蟻集團的研究團隊率先做出嘗試并提出了 VideoComposer,即通過組合式生成范式同時實現(xiàn)視頻在時間和空間兩個維度上的可控性。
論文地址:https://arxiv.org/abs/2306.02018
項目主頁:https://videocomposer.github.io
前段時間,阿里巴巴在魔搭社區(qū)和 Hugging Face 低調開源了文生視頻大模型,意外地受到國內外開發(fā)者的廣泛關注,該模型生成的視頻甚至得到馬斯克本尊的回應,模型在魔搭社區(qū)上連續(xù)多天獲得單日上萬次國際訪問量。
Text-to-Video 在推特
VideoComposer 作為該研究團隊的最新成果,又一次受到了國際社區(qū)的廣泛關注。
VideoComposer 在推特
事實上,可控性已經成為視覺內容創(chuàng)作的更高基準,其在定制化的圖像生成方面取得了顯著進步,但在視頻生成領域仍然具有三大挑戰(zhàn):
復雜的數(shù)據(jù)結構,生成的視頻需同時滿足時間維度上的動態(tài)變化的多樣性和時空維度的內容一致性;
復雜的引導條件,已存在的可控的視頻生成需要復雜的條件是無法人為手動構建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實現(xiàn)視頻間的結構遷移,但不能很好的解決可控性問題;
缺乏運動可控性,運動模式是視頻即復雜又抽象的屬性,運動可控性是解決視頻生成可控性的必要條件。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。