差點被ECCV錯過的論文:視頻理解新框架,僅用微調(diào)的「成本」,達到預(yù)訓(xùn)練的「全能」
對于類似CPU的設(shè)備,研究者提出了一種新穎的CP
轉(zhuǎn)自《機器之心專欄》
如何將現(xiàn)有的圖像 - 文本多模態(tài)大模型(例如 OpenAI CLIP)用于視頻內(nèi)容理解,是一個非常實用且具有前景的研究課題。它不僅可以充分挖掘圖像大模型的潛力,還可以為視頻大模型的設(shè)計和研究鋪平道路。
在視頻內(nèi)容理解領(lǐng)域,為節(jié)省計算 / 數(shù)據(jù)開銷,視頻模型通常 「微調(diào)」圖像預(yù)訓(xùn)練模型。而在圖像領(lǐng)域, 最近流行的語言 - 圖像預(yù)訓(xùn)練模型展現(xiàn)了卓越的泛化性,尤其是零樣本遷移能力。那么人們不禁要問:能否有一種視頻模型兼顧「微調(diào)」 的高效和 「語言 - 圖像預(yù)訓(xùn)練」的全能?答案是可以!
為解決此問題,來自微軟的研究者提出了將語言 - 圖像預(yù)訓(xùn)練模型拓展到通用視頻識別的方法,在建模時序信息的同時,利用類別標(biāo)簽文本中的語義信息。該方法在 Kinetics-400/600 數(shù)據(jù)集上分別取得了 87.7% 和 88.3% 的 Top-1 分類準確率,計算量僅為ViViT 和 Video Swin的十幾分之一,并且在 few-shot 和 zero-shot 評測上大幅領(lǐng)先其它方法。代碼已開源。
- 論文鏈接:https://arxiv.org/pdf/2208.02816.pdf
- 代碼鏈接:http://aka.ms/X-CLIP
下圖 1 為吞吐量和計算量對比的展示。
圖1:throughput 和 FLOPs 對比。
總的來說,這項工作的亮點包括如下:
- 無需海量視頻 - 文本數(shù)據(jù):直接將預(yù)訓(xùn)練的語言 - 圖像模型在下游視頻數(shù)據(jù)集微調(diào),而非從零使用視頻 - 文本預(yù)訓(xùn)練;
- 利用標(biāo)簽中的語義信息:在視頻識別任務(wù)中,拋棄了傳統(tǒng)離散標(biāo)簽,充分利用每個類別標(biāo)簽中的語義信息并提升了性能;
- 方法簡單、高效且通用:無縫銜接至不同的語言 - 圖像模型,可用于多種數(shù)據(jù)分布場景,如全樣本、少樣本和零樣本。
至于視頻分類的效果,與其他方法相比,X-CLIP 可用于零樣本識別,即用戶自定義候選標(biāo)簽,實現(xiàn)對視頻內(nèi)容更精準的描述:
圖 2 動作:三只狗在拉雪橇。
圖 3 動作:在水池上灌籃。
圖 4 動作:更換車輪。
研究動機
最近,語言 - 圖像預(yù)訓(xùn)練模型(Language-image pretrained models)在計算機視覺領(lǐng)域引起了極大關(guān)注。它使用更廣泛的文本信息作為監(jiān)督,打破了傳統(tǒng)模型學(xué)習(xí)固定視覺概念的范式。受益于此,其展示出了強大的遷移能力和泛化能力,在全樣本、少樣本和零樣本分類上取得了卓越的成績。
現(xiàn)在是一個短視頻爆發(fā)的時代,現(xiàn)實世界中豐富的概念更是難以被一個固定的封閉集所定義。于是,研究人員和從業(yè)人員也希望有一個泛化能力強大的視頻模型,能在不同的數(shù)據(jù)分布場景和不同的概念環(huán)境中表現(xiàn)優(yōu)異。這樣的模型會助力于現(xiàn)實世界的許多應(yīng)用,比如自動駕駛、視頻標(biāo)簽、安防監(jiān)控等。同樣,由于視頻的獲取成本通常更加高昂,少樣本和零樣本的識別能力也被期待。
但是,如果直接模仿語言 - 圖像預(yù)訓(xùn)練,使用視頻 - 文本預(yù)訓(xùn)練會帶來以下兩個問題:
- 數(shù)據(jù)困境:需要數(shù)以億計的視頻 - 文本數(shù)據(jù),但是大量的數(shù)據(jù)是難以獲得的;
- 計算困境:視頻的訓(xùn)練通常需要數(shù)倍于圖像的計算資源,這些資源消耗通常無法承受。
有鑒于此,研究者考慮探索如何將預(yù)訓(xùn)練的語言 - 圖像模型中的知識遷移到視頻領(lǐng)域,而非從零預(yù)訓(xùn)練一個語言 - 視頻模型。與圖像相比,視頻增加了時間的維度;與傳統(tǒng)視頻識別框架相比,研究者引入了文本信息。
因此,研究者需要解決兩個關(guān)鍵問題:
- 如何在語言 - 圖像預(yù)訓(xùn)練模型中建模視頻的時序信息?
- 如何利用視頻類別標(biāo)簽中的文本信息?
方法概覽
針對第一個問題,研究者提出了 Cross-frame Communication Transformer 和 Multi-frame Integration Transformer 模塊,在預(yù)訓(xùn)練模型中引入時序信息;對于第二個問題,研究者提出了 Video-specific Prompting 機制,用于產(chǎn)生視頻自適應(yīng)的提示信息,充分地利用了類別標(biāo)簽中的文本信息。方法整體框架圖如下圖 5 所示。
圖 5 方法框架圖。
建模時序信息:利用 message token 幀間通訊
圖 6(a) CCT Block (b)不同時空 attention 對比。
本文中,研究者提出了一種簡單高效的視頻編碼器。該編碼器由兩部分組成,即 Cross-frame Communication Transformer(CCT)和 Multi-frame Integration Transformer(MIT)。為了避免聯(lián)合時空建模的高計算量,整體上,CCT 采用各幀獨立編碼的計算方式。
具體地,對每一幀編碼時,動態(tài)地生成各自的 message token(如圖 6(a)中彩色的圓形部分),攜帶所在幀的信息,再通過 Cross-frame Fusion Attention 交換不同幀的 message token 攜帶的信息,彌補了時序信息的缺失。具體地,如圖 6(a)所示,在 CCT 的每一個 block 中,我們在 cls token 上施加線性變化得到 message token,每幀的 message token 通過 Cross-frame Fusion Attention(CFA)交換信息,
隨后,每一幀的 message token 再回歸到所屬幀。通過 Intra-frame Diffusion Attention,每一幀內(nèi)的 spatial tokens 在建??臻g信息的同時,吸收了來自 message token 的全局時序信息,
最后,每一幀的 spatial tokens 再經(jīng)過 FFN 進一步編碼信息。為了進一步提升性能,研究者在 CCT 產(chǎn)生的每幀的特征上,額外使用一層 Multi-frame Integration Transformer(MIT)(如圖 5)聚合每一幀的信息,產(chǎn)生視頻最終的表達。
Cross-frame Fusion Attention 和 MIT 是額外添加的模塊并使用隨機初始化。Intra-Frame Diffusion Attention 和 FFN 對應(yīng)于預(yù)訓(xùn)練 Vision Transformer 中的 self-attention 和 FFN 部分。值得注意的是,因為幀數(shù)(message tokens 的數(shù)量)遠小于 spatial tokens 的數(shù)量,所以 Cross-frame Fusion Attention 和一層 MIT 的計算量遠小于 Intra-frame Diffusion Attention, 這樣便以較小的計算代價建模了全局的時序信息。
利用標(biāo)簽的語義信息:視頻自適應(yīng)的提示學(xué)習(xí)
針對第二個問題,提示學(xué)習(xí)(Prompt learning)主張為下游任務(wù)設(shè)計一種模板,使用該模板可以幫助預(yù)訓(xùn)練模型回憶起自己預(yù)訓(xùn)練學(xué)到的知識。比如, CLIP[4] 手動構(gòu)造了 80 個模板,CoOp[5]主張構(gòu)造可學(xué)習(xí)的模板。
研究者認為,人類在理解一張圖片或視頻時,自然地會從視覺內(nèi)容中尋找有判別性的線索。例如有額外的提示信息「在水中」,那么「游泳」和「跑步」會變得更容易區(qū)分。但是,獲取這樣的提示信息是困難的,原因有二:
- 數(shù)據(jù)中通常只有類別標(biāo)簽,即「跑步」、「游泳」、「拳擊」等名稱,缺乏必要的上下文描述;
- 同一個類別下的視頻共享相同的標(biāo)簽信息,但它們的關(guān)鍵視覺線索可能是不同。
為了緩解上述問題,研究者提出了從視覺表征中學(xué)習(xí)具有判別性的線索。具體地,他們提出了視頻自適應(yīng)的提示模塊,根據(jù)視頻內(nèi)容的上下文,自適應(yīng)地為每個類別生成合適的提示信息。每個視頻的自適應(yīng)提示模塊由一個 cross-attention 和一個 FFN 組成。令文本特征當(dāng)作 query,視頻內(nèi)容的編碼當(dāng)作 key 和 value,允許每個類別的文本從視頻的上下文中提取有用的提示信息作為自己的補充。
最后,使用學(xué)習(xí)到的提示信息來豐富原本文本信息的表示,使得其具有更強的判別性。
實驗結(jié)果
研究者在全樣本(Fully-supervised)、少樣本(few-shot)和零樣本(zero-shot)上驗證了方法的性能。
在 Kinetics-400 上的實驗如下表 1 所示,可以看出 X-CLIP 在 FLOPs 更小的情況下領(lǐng)先于其它方法,這得益于提出的視頻編碼器的高效性。當(dāng)和其它使用互聯(lián)網(wǎng)(Web)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的模型比較時,本文的方法依然有性能優(yōu)勢,這歸功于該方法充分挖掘和利用了預(yù)訓(xùn)練語言 - 圖像模型中的表達能力。
表 1 Kinetics400 性能。
下表 2 展示了少樣本情況下的性能,和經(jīng)典的使用離散標(biāo)簽監(jiān)督的方法相比,使用文本信息可以大幅提升性能。研究者在消融實驗中證明了性能增益更多來自于文本的使用,而非更強的預(yù)訓(xùn)練模型。
表 2 Few-shot 性能。
下表 3 展示了在零樣本情況下,提出的方法依然有效。這種顯著的改進可以歸因于所提出的視頻 - 文本學(xué)習(xí)框架,該框架利用大規(guī)模的視覺 - 文本預(yù)訓(xùn)練和視頻自適應(yīng)的提示學(xué)習(xí)。
表 3 Zero-shot 性能。
研究者在消融實驗中展示了每個模塊的作用,分析了文本信息的必要性,探索了不同數(shù)據(jù)分布下應(yīng)該訓(xùn)練哪個分支,比較了不同的 prompts 方法。
表 4 消融實驗。
接收背后的小插曲
據(jù)了解,這項工作入選 ECCV 2022 Oral 并非一帆風(fēng)順。雖然 pre-rebuttal 的評分不錯,得到了兩個 Accepts 和一個 Borderline,評審人的評價也很高。并且,研究者本來希望通過 rebuttal 讓中立的評審人改分,爭取 Oral。遺憾的是,接收列表出來的時候卻發(fā)現(xiàn)這篇文章沒有中。
研究者沒有就此放棄,而是選擇在與合著者商量后,向程序主席發(fā)郵件詢問。結(jié)果皆大歡喜,程序主席回信并表示是由于腳本錯誤這篇文章被遺漏了。
于是,這篇文章最終被接收為 ECCV 2022 Oral。
參考文獻
[1] Arnab, A., Dehghani, M., Heigold, G., Sun, C., Luˇ ci′ c, M., Schmid, C.: Vivit: A video vision transformer. In: ICCV. 2021[2] Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML, 2021[3] Liu, Z., Ning, J., Cao, Y., Wei, Y., Zhang, Z., Lin, S., Hu, H.: Video swin transformer. In CVPR, 2022.[4] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In ICML, 2021[5] Zhou, K., Yang, J., Loy, C.C., Liu, Z.: Learning to prompt for vision-language models. arXiv preprint arXiv:2109.01134 (2021)
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。