加特技只需一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣(2)
方法
就研究目的而言,從內容和結構的角度來考慮一個視頻將是有幫助的。對于結構,此處指的是描述其幾何和動態(tài)的特征,比如主體的形狀和位置,以及它們的時間變化。對于內容,此處將其定義為描述視頻的外觀和語義的特征,比如物體的顏色和風格以及場景的照明。Gen-1 模型的目標是編輯視頻的內容,同時保留其結構。
為了實現這一目標,研究者學習了視頻 x 的生成模型 p (x|s, c),其條件是結構表征(用 s 表示)和內容表征(用 c 表示)。他們從輸入視頻推斷出形狀表征 s,并根據描述編輯的文本 prompt c 對其進行修改。首先,描述了對生成模型的實現,作為一個條件潛在的視頻擴散模型,然后,描述了對形狀和內容表征的選擇。最后,討論了模型的優(yōu)化過程。
模型結構如圖 2 所示。
實驗
為了評估該方法,研究者采用了 DAVIS 的視頻和各種素材。為了自動創(chuàng)建編輯 prompt,研究者首先運行了一個字幕模型來獲得原始視頻內容的描述,然后使用 GPT-3 來生成編輯 prompt。
定性研究
如圖 5 所示,結果證明,本文的方法在一些不同的輸入上表現良好。
用戶研究
研究者還使用 Amazon Mechanical Turk(AMT)對 35 個有代表性的視頻編輯 prompt 的評估集進行了用戶研究。對于每個樣本,均要求 5 個注解者在基線方法和本文方法之間對比對視頻編輯 prompt 的忠實度(「哪個視頻更好地代表了所提供的編輯過的字幕?」),然后以隨機順序呈現,并使用多數****來決定最終結果。
結果如圖 7 所示:
定量評估
圖 6 展示了每個模型使用本文框架一致性和 prompt 一致性指標的結果。本文模型在這兩方面的表現都傾向于超越基線模型(即,在圖的右上角位置較高)。研究者還注意到,在基線模型中增加強度參數會有輕微的 tradeoff:更大的強度縮放意味著更高的 prompt 一致性,代價是更低的框架一致性。同時他們還觀察到,增加結構縮放會導致更高的 prompt 一致性,因為內容變得不再由輸入結構決定。
定制化
圖 10 展示了一個具有不同數量的定制步驟和不同水平的結構依附性 ts 的例子。研究者觀察到,定制化提高了對人物風格和外觀的保真度,因此,盡管使用具有不同特征的人物的驅動視頻,但結合較高的 ts 值,還是可以實現精確的動畫效果。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。