色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > ECCV 2022 | 字節(jié)提出業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場方案AutoTransition，數(shù)據(jù)集和代碼已開源

ECCV 2022 | 字節(jié)提出業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場方案AutoTransition，數(shù)據(jù)集和代碼已開源

發(fā)布人：機(jī)器之心時(shí)間：2022-08-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)研發(fā)了業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場推薦方案 AutoTransition。目前，AutoTransition的衍生技術(shù)已經(jīng)成功落地于字節(jié)跳動(dòng)多項(xiàng)智能編輯業(yè)務(wù)中。

隨著短視頻的迅猛發(fā)展和普及，每天都有海量用戶通過視頻來記錄和分享生活。對于缺乏專業(yè)剪輯和視頻編輯知識(shí)的普通用戶而言，視頻的制作和剪輯卻具有很高的門檻。近期，字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)研發(fā)了業(yè)內(nèi)首個(gè)通用視頻轉(zhuǎn)場推薦方案 AutoTransition，致力于解決目前視頻剪輯中存在的學(xué)習(xí)成本高，編輯效率低等問題，該項(xiàng)成果目前已入選計(jì)算機(jī)視覺領(lǐng)域頂會(huì) ECCV2022（European Conference on Computer Vision）。
AutoTransition 兼顧靈活性與高性能，面向轉(zhuǎn)場這一視頻剪輯中最常使用的編輯元素，通過將轉(zhuǎn)場推薦任務(wù)建模為多模態(tài)匹配和檢索問題，從大量視頻數(shù)據(jù)中自動(dòng)學(xué)習(xí)轉(zhuǎn)場匹配關(guān)系，實(shí)現(xiàn)了對任意視頻和音頻輸入推薦高質(zhì)量的轉(zhuǎn)場效果。借助 AutoTransition，用戶可以快速一鍵生成優(yōu)質(zhì)轉(zhuǎn)場視頻，使剪輯效率得到顯著提升。相比人工剪輯和第三方軟件方案，AutoTransition 有如下顯著優(yōu)勢：
相比于基于一系列預(yù)定義的策略或隨機(jī)選取的剪輯方式，能夠有效地從海量數(shù)據(jù)中學(xué)習(xí)到專業(yè)的剪輯知識(shí)，并基于對視頻和音頻的理解推薦高質(zhì)量轉(zhuǎn)場。
相比于人工剪輯，模型能夠在極短時(shí)間內(nèi)完成推薦，顯著提升編輯效率，并且推薦結(jié)果可媲美甚至超越專家剪輯的效果。
得益于優(yōu)秀的擴(kuò)展性，AutoTransition 可以方便地和其他的視頻處理技術(shù)結(jié)合（例如視頻高光提取、視頻聚類和排序等），以實(shí)現(xiàn)更全面的視頻剪輯能力，幫助視頻工作者進(jìn)一步提升視頻編輯的效率。
目前，AutoTransition的衍生技術(shù)已經(jīng)成功落地于字節(jié)跳動(dòng)多項(xiàng)智能編輯業(yè)務(wù)中。團(tuán)隊(duì)表示：首個(gè)視頻轉(zhuǎn)場數(shù)據(jù)集和 AutoTransition 代碼均已開源，以期吸引更多同行關(guān)注這一新領(lǐng)域，共同推動(dòng)智能視頻剪輯的快速發(fā)展。

論文鏈接：https://arxiv.org/abs/2207.13479
在介紹具體的方法之前，先來體驗(yàn)幾組 AutoTransition 實(shí)際生成的轉(zhuǎn)場效果。
可以看到轉(zhuǎn)場類型能夠完美匹配視頻和背景音樂，視頻觀感自然，順滑，整體效果不輸專業(yè)人員的剪輯結(jié)果。注：打開聲音播放體驗(yàn)更好哦！

從數(shù)據(jù)出發(fā)，挖掘剪輯的規(guī)律
為使 AI 模型學(xué)習(xí)通用的轉(zhuǎn)場添加的技巧，需要從構(gòu)建高質(zhì)量的視頻轉(zhuǎn)場數(shù)據(jù)集開始。由于人工對數(shù)據(jù)進(jìn)行標(biāo)注需要耗費(fèi)大量的時(shí)間和精力，成本較高，為此，團(tuán)隊(duì)首先選擇了利用網(wǎng)絡(luò)上公開的視頻轉(zhuǎn)場結(jié)果。例如，剪映 app 中有大量的用戶剪輯腳本和對應(yīng)的成片視頻，天然就包含了豐富的視頻轉(zhuǎn)場和相關(guān)時(shí)間信息。團(tuán)隊(duì)以此為基礎(chǔ)搜集了一個(gè)大規(guī)模的訓(xùn)練數(shù)據(jù)，包含近 35000 條視頻和近 140000 轉(zhuǎn)場效果。數(shù)據(jù)集統(tǒng)計(jì)信息見下表。而對于不同的用戶群體，還可以拓展更多的類似數(shù)據(jù)來應(yīng)對不同的剪輯風(fēng)格和習(xí)慣。

實(shí)現(xiàn)方案
為了實(shí)現(xiàn) “推薦” 合理的轉(zhuǎn)場效果，需要給每一個(gè)轉(zhuǎn)場類型打分，評判和當(dāng)前視頻銜接位置的契合度。為此，團(tuán)隊(duì)將轉(zhuǎn)場推薦建模為一個(gè)多模態(tài)檢索問題，通過計(jì)算輸入的視頻 / 音頻模態(tài)和轉(zhuǎn)場特效之間的特征相似度來獲取不同轉(zhuǎn)場類型的排序。而為了實(shí)現(xiàn)這一步，首先需要具有一系列能夠代表各個(gè)轉(zhuǎn)場類型的特征向量。
如何獲取這樣的一系列特征？為此團(tuán)隊(duì)訓(xùn)練了一個(gè)對視頻轉(zhuǎn)場進(jìn)行分類的網(wǎng)絡(luò)來實(shí)現(xiàn)這一點(diǎn)：

視頻轉(zhuǎn)場類別分類網(wǎng)絡(luò)，訓(xùn)練 Transition Embedding 作為轉(zhuǎn)場的特征表示。
團(tuán)隊(duì)用線性分類器的前一層網(wǎng)絡(luò)輸出作為各轉(zhuǎn)場類型的特征嵌入表示（即 Transition Embedding）。通過對這些特征進(jìn)行 t-SNE 可視化，可以觀察到轉(zhuǎn)場之間視覺效果的差距符合特征空間的分布，即越是相似的轉(zhuǎn)場，特征之間越相近，如下圖中的左滑，右滑，下滑三類轉(zhuǎn)場（類別標(biāo)號(hào)分別為 8，11，9）彼此接近。這說明團(tuán)隊(duì)方法學(xué)習(xí)到的轉(zhuǎn)場表示具有很好的語義特征和判別性。

隨后團(tuán)隊(duì)提出了一個(gè)多模態(tài)轉(zhuǎn)場匹配網(wǎng)絡(luò)，端到端完成提取原始的剪輯素材特征和對以上的學(xué)習(xí)到的轉(zhuǎn)場特征的檢索。視頻中轉(zhuǎn)場的使用需要借助對于畫面內(nèi)容的理解以及對于視頻美感的判斷，以保證畫面能夠絲滑地銜接起來，不顯得突兀。為了讓模型能夠理解視頻中復(fù)雜的元素，團(tuán)隊(duì)將視頻的圖像、音頻兩個(gè)模態(tài)，以及一整個(gè)視頻中多個(gè)轉(zhuǎn)場的上下文信息結(jié)合了起來，一起通過 Transformer 進(jìn)行建模融合。
具體的，首先團(tuán)隊(duì)提取圖像和音頻各自的特征。采用 SlowFast 和 Harmonious Filters 作為視頻和音頻各自的骨干網(wǎng)絡(luò)，也可以方便替換為其他網(wǎng)絡(luò)提取對應(yīng)特征的模型。同時(shí)，同一視頻中的多個(gè)連續(xù)轉(zhuǎn)場一起輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，以更好地建模各個(gè)轉(zhuǎn)場間存在的相互依賴關(guān)系。
最后為了緩解對于數(shù)據(jù)中噪聲的過度擬合，在訓(xùn)練中團(tuán)隊(duì)采用基于 margin 的 triplet loss 優(yōu)化轉(zhuǎn)場特征與視頻銜接處特征之間的相似度關(guān)系。

其中，M 是預(yù)設(shè)的 margin 參數(shù)，a，p，n 分別代表當(dāng)前樣本，正樣本和負(fù)樣本對應(yīng)的歸一化特征。\Phi(,)是相似度度量函數(shù)，在實(shí)驗(yàn)中取向量內(nèi)積形式。

多模態(tài)轉(zhuǎn)場匹配網(wǎng)絡(luò)。
算法測評
通過詳盡的客觀和主觀評測充分驗(yàn)證了 AutoTransition 的有效性。下表是和這一方法和基于分類模型方法的對比，結(jié)果顯示新方法在 Recall 和 Mean Rank 等指標(biāo)上顯著優(yōu)于對比方法。

同時(shí)團(tuán)隊(duì)也分析了不同模態(tài)的輸入對于轉(zhuǎn)場推薦的效果的影響。通過下表中對比可知，對視頻，音頻兩種模態(tài)綜合建模以及考慮轉(zhuǎn)場的序列上下文對結(jié)果均有助于提升推薦性能。

在主觀評測方面，團(tuán)隊(duì)邀請了多位視頻剪輯專家和普通用戶分別對基于專家剪輯以及隨機(jī)的轉(zhuǎn)場結(jié)果進(jìn)行對比。從下圖的統(tǒng)計(jì)結(jié)果中可以看到，模型推薦的結(jié)果的平均得分和專家結(jié)果的得分相當(dāng)，在最優(yōu)結(jié)果的得****率上甚至超過專家結(jié)果。在編輯時(shí)間上，模型推薦的平均用時(shí)只需要 1.5 秒，和人工剪輯相比大大提升了編輯效率（300 倍）。以上結(jié)果充分顯示了 AutoTransition 在效果和性能上的優(yōu)勢。

字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)提出的通用視頻轉(zhuǎn)場推薦方案 AutoTransition 可以高效自動(dòng)生成媲美專業(yè)剪輯師的視頻結(jié)果。AutoTransition 的優(yōu)秀表現(xiàn)彰顯了智能視頻剪輯的巨大潛力，未來，團(tuán)隊(duì)準(zhǔn)備將本方案擴(kuò)展到更多的視頻剪輯元素，包括但不限于視頻動(dòng)畫，視頻貼紙和裁剪變換等，同時(shí)還將嘗試和其他視頻處理技術(shù)結(jié)合，以實(shí)現(xiàn)更全面視頻剪輯功能。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識(shí)別電阻識(shí)別電容識(shí)別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

WTC-AI型太陽能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

國際奧委會(huì)：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會(huì) 體育 | 2024-07-26

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

如何快速搭建手寫體識(shí)別演示系統(tǒng)

視頻 digikey AI 手寫體識(shí)別 | 2022-07-29

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

iPhone 16將不會(huì)預(yù)裝AI功能？計(jì)劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

Nvidia的CEO談AI的未來：“我們將需要三臺(tái)電腦... 一臺(tái)來創(chuàng)建AI... 一臺(tái)來模擬AI... 一臺(tái)來運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

AI驅(qū)動(dòng)的嵌入式聲音和振動(dòng)識(shí)別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計(jì)算安森美 AI 機(jī)器視覺 | 2024-07-31

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

WTC-AI太陽能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)