真實時、強細節(jié)、高保真:更強大的視頻重建算法,性能明顯提升(1)
對圖像的風(fēng)格變換重建已經(jīng)取得了不少突破,但是視頻的重建任務(wù)目前還存在非實時、弱細節(jié)、低保真的問題,本文提出基于退火哈希算法的、粒度逐步細化的視頻內(nèi)容重建算法,性能提升明顯。
我們知道過去幾年,圖像編輯領(lǐng)域發(fā)展驚人。但在視頻領(lǐng)域,還有所缺陷。近日,一項視頻編輯領(lǐng)域的研究成果放出。讓我們先來看一下效果。
姜文變成大猩猩......
美女變成卡通人物......
是不是看起來非常不錯?這都來自于以下這篇研究。
鏈接:https://arxiv.org/abs/2308.07926
圖像處理領(lǐng)域能取得如此顯著的進步,在很大程度上歸功于能夠在大規(guī)模數(shù)據(jù)集上訓(xùn)練的生成式模型,后者能顯著提高圖像任務(wù)的質(zhì)量和精度。然而,有關(guān)視頻內(nèi)容的處理任務(wù)卻沒有取得同等的進展。視頻任務(wù)的挑戰(zhàn)之一在于對保持時間一致性的要求較高,而這個要求會因神經(jīng)網(wǎng)絡(luò)固有的隨機性而變得復(fù)雜。另一個挑戰(zhàn)來自視頻數(shù)據(jù)集本身的性質(zhì),和圖像集相比通常質(zhì)量較差,并且需要更多的計算資源。
因此,基于視頻的算法的質(zhì)量明顯落后于那些專注于圖像的算法。這種落差引發(fā)了一個問題:以圖像形式表示視頻,將已建立的圖像算法無縫應(yīng)用于具有高度時間一致性的視頻內(nèi)容是否可行?
為了實現(xiàn)這一目標(biāo),在深度學(xué)習(xí)時代之前,研究人員曾建議從動態(tài)視頻中生成視頻馬賽克,而在隱式神經(jīng)表征提出之后,研究人員又建議利用神經(jīng)分層圖像圖集。但是這些方法存在兩個主要缺陷。首先,這些方法的表征能力是有限的,特別是在如實地重建視頻中錯綜復(fù)雜的細節(jié)時。通常,重建的視頻忽略了微妙的運動細節(jié),如眨眼或輕微的微笑。第二個限制與估計圖集的典型扭曲性質(zhì)有關(guān),語義信息會因此受損。總而言之,現(xiàn)有的圖像處理算法無法發(fā)揮最佳性能,因為預(yù)測的結(jié)果缺乏足夠的自然度。
本文作者提出了一種新的視頻表征方法,該方法利用基于 2D 散列的圖像場和基于 3D 散列的時間變形場。結(jié)合多分辨率散列編碼來表示時間變化,大大提高了重建一般視頻的能力。這種方法有助于跟蹤水和煙霧等復(fù)雜實體的變形。然而,變形場能力的增強對估計自然規(guī)范圖像提出了挑戰(zhàn)。不自然的規(guī)范圖像也可以通過完整的重建來估計相應(yīng)的變形場。
為了應(yīng)對這一挑戰(zhàn),本文建議在訓(xùn)練期間使用退火哈希算法。先使用平滑變形網(wǎng)格來識別適用于所有剛性運動的粗解決方案,然后逐漸添加高頻細節(jié)。通過這種由粗到細的訓(xùn)練,表征結(jié)果在規(guī)范的自然性和重建的還原性之間實現(xiàn)了平衡。與之前的方法相比,本文作者觀察到重建后的質(zhì)量顯著提高。改進后 PSNR 大約增加 4.4,規(guī)范圖像的自然性也肉眼可見的增加。這種方法的優(yōu)化過程只需要大約 300 秒來估計帶有變形場的規(guī)范圖像,而之前的隱式分層表示需要超過 10 個小時。
本文在變形場算法的基礎(chǔ)上,還說明了提升圖像處理任務(wù),如提示引導(dǎo)圖像翻譯、超分辨率和分割 —— 到視頻內(nèi)容的更動態(tài)場。在處理標(biāo)準(zhǔn)圖像時,本文使用的 prompt-guided 的視頻到視頻重建的方法,具體來說使用的網(wǎng)絡(luò)是 ControlNet ,然后通過學(xué)習(xí)后的變形場傳導(dǎo)重建的內(nèi)容。重建過程在單個標(biāo)準(zhǔn)圖像上進行,無需跨所有幀,無需使用耗時的推理模型(例如擴散模型)。與基于生成模型的 sota 零拍視頻重建相比,本文的重建輸出結(jié)果在時間一致性和紋理質(zhì)量方面有明顯改善。與依賴神經(jīng)分層標(biāo)簽的 Text2Live 相比,本文提出的模型可以說是精通處理更復(fù)雜的運動,能給產(chǎn)生更自然的標(biāo)準(zhǔn)圖像,從而實現(xiàn)卓越的重建結(jié)果。此外,本文將超分辨率、語義分割和關(guān)鍵點檢測等圖像算法的應(yīng)用擴展到標(biāo)準(zhǔn)圖像,從而在視頻上下文中能給得到實際應(yīng)用。這包括視頻超分辨率、視頻對象分割、視頻關(guān)鍵點跟蹤等。本文作者提出的表征算法能從始至終地保持卓越的時間一致性,生成高保真合成幀,展示了其作為視頻處理工具突破性的潛力。
方法概覽
給定由幀 {I1,I2,…,IN} 組成的視頻 V,對于對應(yīng)的視頻任務(wù),可以簡單地將圖像處理算法 X 單獨應(yīng)用于每一幀,但是可能會出現(xiàn)幀之間存在不一致的內(nèi)容,這是我們不希望看到的。進一步地,可以使用另一種策略:用時間模塊增強算法 X,但這需要對視頻數(shù)據(jù)進行額外的訓(xùn)練。然而,簡單地引入時間模塊很難保證理論的一致性,并且可能由于訓(xùn)練數(shù)據(jù)不足而導(dǎo)致性能下降。
受此啟發(fā),本文作者建議使用平滑的規(guī)范圖像 Ic 和變形場 D 來表征視頻 V。通過在 Ic 上應(yīng)用圖像算法 X,可以利用學(xué)習(xí)到的變形場將效果有效地應(yīng)用到整個視頻。這種新穎的視頻表示是圖像算法和視頻任務(wù)之間的重要橋梁,能將最先進的圖像方法直接提升到視頻應(yīng)用中。
本文提出的表征算法具有以下基本特征:
如實地視頻重建的擬合能力。表征應(yīng)該具有精確擬合視頻中的大的剛性或非剛性物體變形的能力。
規(guī)范圖像的語義正確性。失真或語義不正確的規(guī)范圖像可能導(dǎo)致圖像處理性能下降,特別是考慮到這些訓(xùn)練過程多數(shù)都是在自然圖像數(shù)據(jù)上進行的。
變形場的平滑度。保證變形場的平滑性是保證時間一致性和正確傳播的一個基本特征。
下圖 2. 顯示了本文提出的的視頻表示算法 CoDeF 的說明,其將任意視頻分解為 2D 內(nèi)容規(guī)范場和 3D 時間變形場。每個字段使用高效的 MLP,用多分辨率 2D 或 3D 哈希表來實現(xiàn)。這種新型的表示算法天然地支持用于視頻處理任務(wù)的圖像算法,其方式是將所建立的算法直接應(yīng)用于規(guī)范圖像(即,從規(guī)范內(nèi)容字段渲染),然后沿著時間軸通過時間變形字段傳播結(jié)果。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。