CVPR 2023 | 多個(gè)擴(kuò)散模型相互合作,新方法實(shí)現(xiàn)多模態(tài)人臉生成與編輯
本文提出了一種簡單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。
近一兩年,擴(kuò)散模型 (diffusion models) 展現(xiàn)出了強(qiáng)大的生成能力。不同種類的擴(kuò)散模型性能各異 —— text-to-image 模型可以根據(jù)文字生成圖片,mask-to-image 模型可以從分割圖生成圖片,除此之外還有更多種類的擴(kuò)散模型,例如生成視頻、3D、motion 等等。
假如有一種方法讓這些 pre-trained 的擴(kuò)散模型合作起來,發(fā)揮各自的專長,那么我們就可以得到一個(gè)多功能的生成框架。比如當(dāng) text-to-image 模型與 mask-to-image 模型合作時(shí),我們就可以同時(shí)接受 text 和 mask 輸入,生成與 text 和 mask 一致的圖片了。
CVPR 2023 的 Collaborative Diffusion 提供了一種簡單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。
- 論文: https://arxiv.org/abs/2304.10530
- 代碼: https://github.com/ziqihuangg/Collaborative-Diffusion
- 網(wǎng)頁: https://ziqihuangg.github.io/projects/collaborative-diffusion.html
- 視頻: https://www.youtube.com/watch?v=inLK4c8sNhc
我們先看看不同擴(kuò)散模型合作生成圖片的效果:
當(dāng) text-to-image 和 mask-to-image 通過 Collaborative Diffusion 合作時(shí),生成的圖片可以達(dá)到和輸入的 text 以及 mask 高度一致。
給定不同的多模態(tài)輸入組合,Collaborative Diffusion 可以生成高質(zhì)量的圖片,而且圖片與多模態(tài)控制條件高度一致。即便多模態(tài)輸入是相對少見的組合,例如留長頭發(fā)的男生,和留寸頭的女生,Collaborative Diffusion 依舊可以勝任。
那不同的擴(kuò)散模型究竟怎樣實(shí)現(xiàn)合作呢?
首先,我們知道,擴(kuò)散模型在生成圖片的過程中,會從高斯噪聲開始,逐步去噪,最終得到自然圖像。
圖片來源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications
基于擴(kuò)散模型迭代去噪的性質(zhì),我們的 Collaborative Diffusion 在去噪的每一步都會動態(tài)地預(yù)測不同的擴(kuò)散模型如何有效合作,各取所長。Collaborative Diffusion 的基本框架如下圖所示。
我們在每一步去噪時(shí),用 Dynamic Diffusers 動態(tài)地預(yù)測每個(gè)擴(kuò)散模型對整體預(yù)測結(jié)果帶來的影響(也就是 Influence Functions)。Influence Functions 會選擇性地增強(qiáng)或者減少某個(gè)擴(kuò)散模型的貢獻(xiàn),從而讓各位合作者(也就是擴(kuò)散模型)發(fā)揮專長,實(shí)現(xiàn)合作共贏。
值得注意的是,預(yù)測得到的 Influence Functions 在時(shí)間和空間上都是適應(yīng)性變化的。下圖展示了 mask-to-image 和 text-to-image 模型合作時(shí),在不同時(shí)間和空間位置的 Influence Functions 強(qiáng)度。
從上圖中我們可以觀察到,在時(shí)間上,決定 mask-to-image 模型影響的 Influence Functions 在去噪初期很強(qiáng)(第一行左邊),到后期逐漸變?nèi)酰ǖ谝恍杏疫叄@是因?yàn)閿U(kuò)散模型在去噪初期會首先形成圖片內(nèi)容的布局,到后期才會逐漸生成紋路和細(xì)節(jié);而在多模態(tài)控制人臉生成時(shí),圖片的布局信息主要是由 mask 提供的,因此 mask 分支的 Influence Functions 會隨著時(shí)間由強(qiáng)變?nèi)?。與之相對應(yīng)地 text-to-image 模型的 Influence Functions(第二行)會隨著時(shí)間由弱到強(qiáng),因?yàn)?text 提供的多數(shù)信息是與細(xì)節(jié)紋路相關(guān)的,例如胡子的濃密程度,頭發(fā)顏色,以及與年齡相關(guān)的皮膚皺紋,而擴(kuò)散模型的去噪過程也是在后期才會逐步確定圖片的紋理以及細(xì)節(jié)。
與此同時(shí),在空間上,mask-to-image 模型的 Influence 在面部區(qū)域分界處更強(qiáng),例如面部輪廓和頭發(fā)的外邊緣,因?yàn)檫@些地方對整體面部布局是至關(guān)重要的。text-to-image 模型的 Influence 則在面中,尤其是臉頰和胡子所在的區(qū)域較強(qiáng),因?yàn)檫@些區(qū)域的紋理需要 text 提供的年齡,胡子等信息來填充。
Collaborative Diffusion 的通用性
Collaborative Diffusion 是一個(gè)通用框架,它不僅適用于圖片生成,還可以讓 text-based editing 和 mask-based editing 方法合作起來。我們利用在生成任務(wù)上訓(xùn)練的 Dynamic Diffusers 來預(yù)測 Influence Functions,并將其直接用到 editing 中。如下圖所示:
完整的實(shí)驗(yàn)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果,以及更多圖片結(jié)果,請參考論文。
總結(jié)
(1) 我們提出了 Collaborative Diffusion,一種簡單有效的方法來實(shí)現(xiàn)不同擴(kuò)散模型之間的合作。(2) 我們充分利用擴(kuò)散模型的迭代去噪性質(zhì),設(shè)計(jì)了 Dynamic Diffuser 來預(yù)測在時(shí)間和空間上均有適應(yīng)性的 Influence Functions 來控制不同的擴(kuò)散模型如何合作。(3) 我們實(shí)現(xiàn)了高質(zhì)量的多模態(tài)控制的人臉生成和編輯。(4) Collaborative Diffusion 是一個(gè)通用的框架,不僅適用于圖片生成,還適用于圖片編輯,以及未來更多的基于擴(kuò)散模型的其他任務(wù)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。