奧斯卡大贏家影片:《瞬息全宇宙》背后的AI技術(shù)揭秘
關(guān)鍵詞:瞬息全宇宙 Runway Gen-1
北京時(shí)間 3 月 13 日上午,2023 年奧斯卡頒獎(jiǎng)禮在洛杉磯舉行,影片《瞬息全宇宙》一舉斬獲七項(xiàng)大獎(jiǎng),成為最大贏家。主演楊紫瓊也憑借該片將奧斯卡最佳女主角獎(jiǎng)收入囊中,成為奧斯卡歷史上首位華裔影后。
楊紫瓊奧斯卡封后,圖源網(wǎng)絡(luò)
據(jù)了解,這部正在被熱議的科幻電影背后的視覺效果團(tuán)隊(duì)僅有 5 人,為了盡快完成這些特效鏡頭,他們選擇了 Runway 公司的技術(shù)來幫助創(chuàng)建某些場景,比如為圖像去除背景的綠幕工具 (The Green Screen)。
「僅僅幾次點(diǎn)擊就讓我節(jié)省幾個(gè)小時(shí),我可以用這些時(shí)間嘗試三四種不同的效果,讓影片效果更好?!箤?dǎo)演兼編劇 Evan Halleck 受訪時(shí)談道。
手指進(jìn)化成熱狗宇宙,圖源網(wǎng)絡(luò)
Runway:參與初代Stable Diffusion開發(fā)
2018 年底,Cristóbal Valenzuela 聯(lián)合其他成員創(chuàng)立 Runway。它是一家人工智能視頻編輯軟件提供商,致力于利用計(jì)算機(jī)圖形學(xué)及機(jī)器學(xué)習(xí)的最新進(jìn)展,為設(shè)計(jì)師、藝術(shù)家和開發(fā)人員降低內(nèi)容創(chuàng)作的門檻、推動(dòng)創(chuàng)意內(nèi)容的發(fā)展。
據(jù) Forbes 報(bào)道,該公司年收入將近 500 萬美元,員工僅 40 人左右
2023 年 2 月 6 日,Runway 官方推特發(fā)布 Gen-1 模型,可以通過應(yīng)用文本提示或者參考圖像所指定的任意風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為新視頻。
Runway Twitter 官宣 Gen-1
Gen-1:structure + content 雙管齊下
科研人員提出了一個(gè)結(jié)構(gòu) (structure) 和內(nèi)容 (content) 引導(dǎo)的 video diffusion model--Gen-1,可以依據(jù)預(yù)期輸出的視覺或文本描述,對(duì)視頻進(jìn)行編輯。
Gen-1 模型原理展示
所謂 content,是指描述視頻的外表 (appearance) 和語義的特征,如目標(biāo)物體的顏色、風(fēng)格以及場景的燈光。
而 structure 則是指描述其幾何和動(dòng)態(tài)的特征,如目標(biāo)物體的形狀、位置以及時(shí)間變化。
Gen-1 模型的目標(biāo)是在保留視頻 structure 的同時(shí),編輯視頻 content。
在模型訓(xùn)練過程中,科研人員用到了一個(gè)由未加字幕的視頻及 text-image pair 構(gòu)成的大規(guī)模數(shù)據(jù)集,同時(shí),用單目場景深度預(yù)測 (monocular depth estimates) 來表示 structure,用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測的 embedding 來表示 content。
該方法在生成過程中提供了幾種強(qiáng)大的控制模式:
1. 參考圖像合成模型,訓(xùn)練模型使得推理的視頻 content(如呈現(xiàn)或風(fēng)格)與用戶提供的 image 或 prompt 相匹配。
Guided Video Synthesis 示例
在保留輸入視頻(中間)structure 的同時(shí)
基于文本提示或圖像合成的視頻(上及下)
2. 參考 diffusion 過程,對(duì)結(jié)構(gòu)表征 (structure representation) 進(jìn)行 information obscuring,這使得開發(fā)者可以自行設(shè)定 model adhere 對(duì)于給定 structure 的相似程度。
3. 參考 classifier-free guidance,借助自定義 guidance 方法,調(diào)整推理過程,從而控制生成 clip 的時(shí)間一致性。
在該實(shí)驗(yàn)中,科研人員:
- 通過在預(yù)訓(xùn)練的圖像模型中引入 temporal layer,并對(duì)圖像和視頻進(jìn)行聯(lián)合訓(xùn)練,將 latent diffusion model 擴(kuò)展到視頻生成中。
- 提出了一個(gè) structure 和 content-aware 模型,可以在示例圖像或文本的指導(dǎo)下修改視頻。視頻編輯完全是在推理階段進(jìn)行的,無需逐個(gè)視頻進(jìn)行訓(xùn)練或預(yù)處理。
- 對(duì) temporal、content 和 structure 一致性的完全控制。實(shí)驗(yàn)表明,在圖像和視頻數(shù)據(jù)上的聯(lián)合訓(xùn)練,能夠在推理期間上控制一致性 (temporal consistency)。對(duì)于結(jié)構(gòu)一致性 (structure consistency),在表征的不同細(xì)節(jié)水平上訓(xùn)練,使用戶得以在推理過程中選擇所需的設(shè)置。
- 一項(xiàng)用戶調(diào)研表明,該方法比其他幾種方法更受歡迎。
- 通過對(duì)一小部分圖像進(jìn)行微調(diào),可以進(jìn)一步定制訓(xùn)練過的模型,以生成更準(zhǔn)確的特定 subject 的視頻。
為了評(píng)估 Gen-1 的性能,科研人員用 DAVIS 數(shù)據(jù)集中的視頻以及其他各種素材進(jìn)行了評(píng)估。為了自動(dòng)創(chuàng)建編輯 prompt,研究人員首先運(yùn)行了一個(gè) captioning 模型來獲得原始視頻內(nèi)容的描述,然后使用 GPT3 生成編輯 prompt。
Gen-1 與其他模型生成效果的用戶滿意度對(duì)比
實(shí)驗(yàn)結(jié)果表明,在對(duì)所有方法生成效果的滿意度調(diào)研中,75% 的用戶更傾向 Gen-1 的生成效果。
AIGC:爭議中前行
2022 年,生成式人工智能成為自十多年前移動(dòng)和云計(jì)算興起以來最引人注目的技術(shù),我們正有幸見證其應(yīng)用層的萌芽,許多大模型正迅速從實(shí)驗(yàn)室中走出來,撲向真實(shí)世界的各個(gè)場景。
然而,盡管有提高效率、節(jié)省成本等諸多好處,我們也需要看到,生成式人工智能依然面臨多種挑戰(zhàn),包括如何提高模型的輸出質(zhì)量和多樣性、如何提高其生成速度,以及應(yīng)用過程中的安全、隱私和倫理宗教等問題。
有些人對(duì) AI 藝術(shù)創(chuàng)作提出質(zhì)疑,更有甚者認(rèn)為這是一種 AI 對(duì)藝術(shù)的「入侵」,面對(duì)這種聲音,Runway 聯(lián)合創(chuàng)始人兼 CEO Cristóbal Valenzuela 認(rèn)為,AI 只是工具箱中一個(gè)用來給圖像等內(nèi)容上色或修改的工具,與 Photoshop、LightRoom 并無二致。雖然生成式人工智能還存在一些爭議,但它為非技術(shù)人員和創(chuàng)意人員打開了創(chuàng)作的大門,并將帶領(lǐng)內(nèi)容創(chuàng)作領(lǐng)域走向新的可能。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。