ICLR 2021 | 協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò),輕松幫你實(shí)現(xiàn)任意大區(qū)域圖像填充
編者按:圖像填充是深度學(xué)習(xí)領(lǐng)域內(nèi)的一個(gè)熱點(diǎn)任務(wù)。盡管現(xiàn)有方法對(duì)于小規(guī)模、稀疏區(qū)域的填充可以取得不錯(cuò)的效果,但對(duì)于大規(guī)模的缺失區(qū)域始終無能為力。為解決這一問題,微軟亞洲研究院提出了協(xié)同調(diào)制生成式對(duì)抗網(wǎng)絡(luò)——一種通用的方法,跨越了條件與無條件圖像生成領(lǐng)域之間的鴻溝。這一方法不但能夠高質(zhì)量、多樣地填充圖像任意規(guī)模的缺失區(qū)域,同時(shí)也能被應(yīng)用于更廣泛的圖像轉(zhuǎn)換任務(wù)。此外,考慮到圖像填充領(lǐng)域內(nèi)缺乏良好的指標(biāo),研究員們還提出了配對(duì)/無配對(duì)感知器辨別分?jǐn)?shù)(P-IDS/U-IDS)以更加魯棒、直觀、合理地衡量模型性能。該相關(guān)工作已被 ICLR 2021 接受為 Spotlight Presentation。
如何對(duì)殘缺圖像進(jìn)行修復(fù)?傳統(tǒng)方法需要使用修圖軟件中的畫筆、圖章、加深減淡……等工具,如果有美觀/美顏的需求,還得請(qǐng)“專家”上手。近日,微軟亞洲研究院的研究員們?cè)?ICLR 2021 大會(huì)上發(fā)表了一項(xiàng)工作:“Large Scale Image Completion via Co-Modulated Generative Adversarial Networks”(通過協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)進(jìn)行大規(guī)模圖像填充),能夠?qū)崿F(xiàn)一鍵修圖。
讓我們先來看看它的修復(fù)“手藝”吧!
下面這兩張圖片,左圖是原圖,右圖是修復(fù)過的圖像。與左圖相比,右圖中的裂縫是不是沒有了?
不僅如此,遮擋物也能修復(fù)!將左邊的原圖經(jīng)過處理后,右圖呈現(xiàn)出的景物更加完整。
殘缺的圖片也可以自動(dòng)補(bǔ)全啦!原來破敗的房子,處理之后,煥然一新。
現(xiàn)在這項(xiàng)研究成果已經(jīng)可以在線體驗(yàn)啦!點(diǎn)擊閱讀原文,即可上手嘗試。
技術(shù)思想:圖像生成能力
事實(shí)上,圖像填充是深度學(xué)習(xí)領(lǐng)域內(nèi)的一個(gè)熱點(diǎn)任務(wù)。盡管現(xiàn)有方法對(duì)于小規(guī)模、稀疏區(qū)域的填充可以取得不錯(cuò)的效果,但對(duì)于大規(guī)模的缺失區(qū)域始終無能為力。為解決這一問題,微軟亞洲研究院的研究員們提出了協(xié)同調(diào)制生成式對(duì)抗網(wǎng)絡(luò),其研究主要思想是:解決大規(guī)模圖像填充的關(guān)鍵在于需要充分的圖像生成能力。
考慮一個(gè)極端情況——如果一張圖像絕大部分的面積被遮擋,那么這一情況下圖像填充的難度就幾乎等價(jià)于無條件的圖像生成。由此可以推斷,充足的圖像生成能力將能夠極大地助力大區(qū)域的圖像填充。
當(dāng)前,越來越多基于條件生成對(duì)抗網(wǎng)絡(luò)(conditional GAN)的圖像填充方法被提出。因?yàn)檫@一任務(wù)極具挑戰(zhàn)性,大量研究者都在針對(duì)這一具體任務(wù)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),如利用中間表征信息(邊緣、結(jié)構(gòu)等)來構(gòu)建多階段的生成網(wǎng)絡(luò)。但即便如此,這些方法在面對(duì)大規(guī)模的缺失區(qū)域時(shí)仍然無法生成合理的、與已知部分協(xié)調(diào)的圖像內(nèi)容。而利用圖像的生成能力則能夠在一定程度上解決這個(gè)挑戰(zhàn)。
技術(shù)核心:協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)
目前,以 StyleGAN、BigGAN 為代表的無條件生成對(duì)抗網(wǎng)絡(luò)借助調(diào)制(modulation)的方法(如圖1 (a)),可以在無條件圖像生成任務(wù)(如隨機(jī)生成人臉)中取得非常好的結(jié)果。然而,在以圖像為條件的生成任務(wù)(如圖像填充)中,大多數(shù)工作仍然無法突破普通圖像條件生成器(圖1 (b))帶來的瓶頸。即便有些工作嘗試?yán)幂斎雸D片進(jìn)行條件調(diào)制(圖1 (c)),但這種完全依賴于條件輸入、缺乏隨機(jī)性的生成器結(jié)構(gòu)導(dǎo)致其無法泛化到需要弱條件生成能力的任務(wù)上,尤其是大區(qū)域的圖像填充。
圖1:不同生成式網(wǎng)絡(luò)架構(gòu)對(duì)比——(a) 無條件調(diào)制生成器,(b) 普通圖像條件生成器,(c) 有條件調(diào)制生成器,(d) 協(xié)同調(diào)制生成器。
因此,微軟亞洲研究院的研究員們提出了協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)(如圖1 (d)),協(xié)同地將條件輸入與隨機(jī)潛矢量經(jīng)過映射網(wǎng)絡(luò)產(chǎn)生的風(fēng)格表征對(duì)每個(gè)卷積層進(jìn)行調(diào)制,從而跨越了條件與無條件圖像生成領(lǐng)域之間的鴻溝,輕松實(shí)現(xiàn)任意大區(qū)域的圖像填充(見圖2、圖3),并能夠應(yīng)用于更一般的圖像轉(zhuǎn)換(image-to-image translation)任務(wù)中(圖4)。
圖2:從小規(guī)模(左)到大規(guī)模(右)的缺失區(qū)域,協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)始終可以創(chuàng)作出高質(zhì)量、多樣的填充內(nèi)容。
圖3:不同圖像填充方法之間的比較。協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)的填充結(jié)果(右一)顯著優(yōu)于其它經(jīng)典方法,即使面對(duì)大面積且不規(guī)則的缺失區(qū)域,它的效果依舊出色。
圖4:協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于圖像轉(zhuǎn)換任務(wù)。在 Edges2Handbags 數(shù)據(jù)集上,協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)表現(xiàn)出嚴(yán)格優(yōu)于其它經(jīng)典方法的圖像質(zhì)量(FID)與圖像多樣性(LPIPS)之間的權(quán)衡曲線。
技術(shù)評(píng)價(jià):配對(duì)/無配對(duì)感知器辨別分?jǐn)?shù)
研究員們還注意到圖像填充領(lǐng)域內(nèi)缺乏良好的評(píng)價(jià)指標(biāo)。此前的研究多采用像素級(jí)相似度指標(biāo)(如 l_1、l_2、SSIM、PSNR 等)或直接采用圖像生成領(lǐng)域內(nèi)如 FID、KID 等的指標(biāo)。前者更加青睞模糊的生成圖像,而后者則完全忽略了圖像的配對(duì)關(guān)系(原圖像—填充后圖像)。
因此,研究員們提出了新的配對(duì)/無配對(duì)感知器辨別分?jǐn)?shù)(P-IDS/U-IDS),通過計(jì)算生成圖像與真實(shí)圖像在感知器特征空間中的線性可分程度,反映了生成圖像的保真度。實(shí)驗(yàn)驗(yàn)證了該指標(biāo)的魯棒性、直觀性、與合理性:
1)P-IDS/U-IDS 在少量數(shù)據(jù)的情況下能夠快速收斂(如圖5);
2)P-IDS 能夠敏銳地捕捉圖像的微小差距(如圖6);
3)P-IDS 與人類偏好有著高相關(guān)度——FID 與人類偏好的負(fù)相關(guān)度為0.765,而 P-IDS 的正相關(guān)度高達(dá)0.870。
圖5:相較于 FID,P-IDS/U-IDS 在數(shù)據(jù)量少的情況下收斂迅速。
圖6:P-IDS 能夠捕捉圖像的細(xì)微差距。在 512×512 大小的圖像中,一定數(shù)量(橫軸)的像素被刪除并進(jìn)行了最近鄰插值。
協(xié)同調(diào)制填補(bǔ)了條件與無條件圖像生成之間的空缺,可輕松實(shí)現(xiàn)任意大區(qū)域的圖像補(bǔ)全,還可以被拓展至更廣泛的圖像轉(zhuǎn)換任務(wù)。同時(shí),配對(duì)/無配對(duì)感知器辨別分?jǐn)?shù)(P-IDS/U-IDS)評(píng)價(jià)指標(biāo)的諸多良好性能也使其在領(lǐng)域內(nèi)有著極高的潛力。研究員們希望協(xié)同調(diào)制生成對(duì)抗網(wǎng)絡(luò)架構(gòu)能夠成為領(lǐng)域內(nèi)的基準(zhǔn)方法,繼續(xù)推動(dòng)這一領(lǐng)域的前進(jìn)。
論文:Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
論文鏈接:https://arxiv.org/pdf/2103.10428
GitHub:https://github.com/zsyzzsoft/co-mod-gan
Demo:http://comodgan.ml/
本文作者:趙晟宇、崔仁、盛翊倫、董玥、梁霄、張益肇、許燕
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。