色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > ECCV 2022 | 字節(jié)提出業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場方案AutoTransition,數(shù)據(jù)集和代碼已開源

          ECCV 2022 | 字節(jié)提出業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場方案AutoTransition,數(shù)據(jù)集和代碼已開源

          發(fā)布人:機(jī)器之心 時(shí)間:2022-08-20 來源:工程師 發(fā)布文章
          字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)研發(fā)了業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場推薦方案 AutoTransition。目前,AutoTransition的衍生技術(shù)已經(jīng)成功落地于字節(jié)跳動(dòng)多項(xiàng)智能編輯業(yè)務(wù)中。


          隨著短視頻的迅猛發(fā)展和普及,每天都有海量用戶通過視頻來記錄和分享生活。對于缺乏專業(yè)剪輯和視頻編輯知識(shí)的普通用戶而言,視頻的制作和剪輯卻具有很高的門檻。近期,字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)研發(fā)了業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場推薦方案 AutoTransition,致力于解決目前視頻剪輯中存在的學(xué)習(xí)成本高,編輯效率低等問題,該項(xiàng)成果目前已入選計(jì)算機(jī)視覺領(lǐng)域頂會(huì) ECCV2022(European Conference on Computer Vision)。
          AutoTransition 兼顧靈活性與高性能,面向轉(zhuǎn)場這一視頻剪輯中最常使用的編輯元素,通過將轉(zhuǎn)場推薦任務(wù)建模為多模態(tài)匹配和檢索問題,從大量視頻數(shù)據(jù)中自動(dòng)學(xué)習(xí)轉(zhuǎn)場匹配關(guān)系,實(shí)現(xiàn)了對任意視頻和音頻輸入推薦高質(zhì)量的轉(zhuǎn)場效果。借助 AutoTransition,用戶可以快速一鍵生成優(yōu)質(zhì)轉(zhuǎn)場視頻,使剪輯效率得到顯著提升。相比人工剪輯和第三方軟件方案,AutoTransition 有如下顯著優(yōu)勢:
          相比于基于一系列預(yù)定義的策略或隨機(jī)選取的剪輯方式,能夠有效地從海量數(shù)據(jù)中學(xué)習(xí)到專業(yè)的剪輯知識(shí),并基于對視頻和音頻的理解推薦高質(zhì)量轉(zhuǎn)場。
          相比于人工剪輯,模型能夠在極短時(shí)間內(nèi)完成推薦,顯著提升編輯效率,并且推薦結(jié)果可媲美甚至超越專家剪輯的效果。
          得益于優(yōu)秀的擴(kuò)展性,AutoTransition 可以方便地和其他的視頻處理技術(shù)結(jié)合(例如視頻高光提取、視頻聚類和排序等),以實(shí)現(xiàn)更全面的視頻剪輯能力,幫助視頻工作者進(jìn)一步提升視頻編輯的效率。
          目前,AutoTransition的衍生技術(shù)已經(jīng)成功落地于字節(jié)跳動(dòng)多項(xiàng)智能編輯業(yè)務(wù)中。團(tuán)隊(duì)表示:首個(gè)視頻轉(zhuǎn)場數(shù)據(jù)集和 AutoTransition 代碼均已開源,以期吸引更多同行關(guān)注這一新領(lǐng)域,共同推動(dòng)智能視頻剪輯的快速發(fā)展。

          圖片


          論文鏈接:https://arxiv.org/abs/2207.13479
          在介紹具體的方法之前,先來體驗(yàn)幾組 AutoTransition 實(shí)際生成的轉(zhuǎn)場效果。
          可以看到轉(zhuǎn)場類型能夠完美匹配視頻和背景音樂,視頻觀感自然,順滑,整體效果不輸專業(yè)人員的剪輯結(jié)果。注:打開聲音播放體驗(yàn)更好哦!

          圖片


          從數(shù)據(jù)出發(fā),挖掘剪輯的規(guī)律
          為使 AI 模型學(xué)習(xí)通用的轉(zhuǎn)場添加的技巧,需要從構(gòu)建高質(zhì)量的視頻轉(zhuǎn)場數(shù)據(jù)集開始。由于人工對數(shù)據(jù)進(jìn)行標(biāo)注需要耗費(fèi)大量的時(shí)間和精力,成本較高,為此,團(tuán)隊(duì)首先選擇了利用網(wǎng)絡(luò)上公開的視頻轉(zhuǎn)場結(jié)果。例如,剪映 app 中有大量的用戶剪輯腳本和對應(yīng)的成片視頻,天然就包含了豐富的視頻轉(zhuǎn)場和相關(guān)時(shí)間信息。團(tuán)隊(duì)以此為基礎(chǔ)搜集了一個(gè)大規(guī)模的訓(xùn)練數(shù)據(jù),包含近 35000 條視頻和近 140000 轉(zhuǎn)場效果。數(shù)據(jù)集統(tǒng)計(jì)信息見下表。而對于不同的用戶群體,還可以拓展更多的類似數(shù)據(jù)來應(yīng)對不同的剪輯風(fēng)格和習(xí)慣。

          圖片


          實(shí)現(xiàn)方案
          為了實(shí)現(xiàn) “推薦” 合理的轉(zhuǎn)場效果,需要給每一個(gè)轉(zhuǎn)場類型打分,評判和當(dāng)前視頻銜接位置的契合度。為此,團(tuán)隊(duì)將轉(zhuǎn)場推薦建模為一個(gè)多模態(tài)檢索問題,通過計(jì)算輸入的視頻 / 音頻模態(tài)和轉(zhuǎn)場特效之間的特征相似度來獲取不同轉(zhuǎn)場類型的排序。而為了實(shí)現(xiàn)這一步,首先需要具有一系列能夠代表各個(gè)轉(zhuǎn)場類型的特征向量。
          如何獲取這樣的一系列特征?為此團(tuán)隊(duì)訓(xùn)練了一個(gè)對視頻轉(zhuǎn)場進(jìn)行分類的網(wǎng)絡(luò)來實(shí)現(xiàn)這一點(diǎn):

          圖片

          視頻轉(zhuǎn)場類別分類網(wǎng)絡(luò),訓(xùn)練 Transition Embedding 作為轉(zhuǎn)場的特征表示。
          團(tuán)隊(duì)用線性分類器的前一層網(wǎng)絡(luò)輸出作為各轉(zhuǎn)場類型的特征嵌入表示(即 Transition Embedding)。通過對這些特征進(jìn)行 t-SNE 可視化,可以觀察到轉(zhuǎn)場之間視覺效果的差距符合特征空間的分布,即越是相似的轉(zhuǎn)場,特征之間越相近,如下圖中的左滑,右滑,下滑三類轉(zhuǎn)場(類別標(biāo)號(hào)分別為 8,11,9)彼此接近。這說明團(tuán)隊(duì)方法學(xué)習(xí)到的轉(zhuǎn)場表示具有很好的語義特征和判別性。

          圖片


          隨后團(tuán)隊(duì)提出了一個(gè)多模態(tài)轉(zhuǎn)場匹配網(wǎng)絡(luò),端到端完成提取原始的剪輯素材特征和對以上的學(xué)習(xí)到的轉(zhuǎn)場特征的檢索。視頻中轉(zhuǎn)場的使用需要借助對于畫面內(nèi)容的理解以及對于視頻美感的判斷,以保證畫面能夠絲滑地銜接起來,不顯得突兀。為了讓模型能夠理解視頻中復(fù)雜的元素,團(tuán)隊(duì)將視頻的圖像、音頻兩個(gè)模態(tài),以及一整個(gè)視頻中多個(gè)轉(zhuǎn)場的上下文信息結(jié)合了起來,一起通過 Transformer 進(jìn)行建模融合。
          具體的,首先團(tuán)隊(duì)提取圖像和音頻各自的特征。采用 SlowFast 和 Harmonious Filters 作為視頻和音頻各自的骨干網(wǎng)絡(luò),也可以方便替換為其他網(wǎng)絡(luò)提取對應(yīng)特征的模型。同時(shí),同一視頻中的多個(gè)連續(xù)轉(zhuǎn)場一起輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,以更好地建模各個(gè)轉(zhuǎn)場間存在的相互依賴關(guān)系。
          最后為了緩解對于數(shù)據(jù)中噪聲的過度擬合,在訓(xùn)練中團(tuán)隊(duì)采用基于 margin 的 triplet loss 優(yōu)化轉(zhuǎn)場特征與視頻銜接處特征之間的相似度關(guān)系。

          圖片


          其中,M 是預(yù)設(shè)的 margin 參數(shù),a,p,n 分別代表當(dāng)前樣本,正樣本和負(fù)樣本對應(yīng)的歸一化特征。\Phi(,)是相似度度量函數(shù),在實(shí)驗(yàn)中取向量內(nèi)積形式。

          圖片

          多模態(tài)轉(zhuǎn)場匹配網(wǎng)絡(luò)。
          算法測評
          通過詳盡的客觀和主觀評測充分驗(yàn)證了 AutoTransition 的有效性。下表是和這一方法和基于分類模型方法的對比,結(jié)果顯示新方法在 Recall 和 Mean Rank 等指標(biāo)上顯著優(yōu)于對比方法。

          圖片


          同時(shí)團(tuán)隊(duì)也分析了不同模態(tài)的輸入對于轉(zhuǎn)場推薦的效果的影響。通過下表中對比可知,對視頻,音頻兩種模態(tài)綜合建模以及考慮轉(zhuǎn)場的序列上下文對結(jié)果均有助于提升推薦性能。

          圖片


          在主觀評測方面,團(tuán)隊(duì)邀請了多位視頻剪輯專家和普通用戶分別對基于專家剪輯以及隨機(jī)的轉(zhuǎn)場結(jié)果進(jìn)行對比。從下圖的統(tǒng)計(jì)結(jié)果中可以看到,模型推薦的結(jié)果的平均得分和專家結(jié)果的得分相當(dāng),在最優(yōu)結(jié)果的得****率上甚至超過專家結(jié)果。在編輯時(shí)間上,模型推薦的平均用時(shí)只需要 1.5 秒,和人工剪輯相比大大提升了編輯效率(300 倍)。以上結(jié)果充分顯示了 AutoTransition 在效果和性能上的優(yōu)勢。

          圖片


          字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)提出的通用視頻轉(zhuǎn)場推薦方案 AutoTransition 可以高效自動(dòng)生成媲美專業(yè)剪輯師的視頻結(jié)果。AutoTransition 的優(yōu)秀表現(xiàn)彰顯了智能視頻剪輯的巨大潛力,未來,團(tuán)隊(duì)準(zhǔn)備將本方案擴(kuò)展到更多的視頻剪輯元素,包括但不限于視頻動(dòng)畫,視頻貼紙和裁剪變換等,同時(shí)還將嘗試和其他視頻處理技術(shù)結(jié)合,以實(shí)現(xiàn)更全面視頻剪輯功能。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

          linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉