色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 特拉維夫大學把StyleGAN進行了大匯總,全面了解SOTA方法、架構(gòu)新進展

          特拉維夫大學把StyleGAN進行了大匯總,全面了解SOTA方法、架構(gòu)新進展

          發(fā)布人:機器之心 時間:2022-04-09 來源:工程師 發(fā)布文章
          一文了解 StyleGAN 架構(gòu)、方法和應用的最新進展。


          GAN 生成高分辨率圖像的能力正在徹底改變圖像合成和處理領域。2019 年 Karras 等人提出 StyleGAN ,該技術走到了圖像合成的最前沿,被公認為是最先進的高質(zhì)量圖像生成器。我們先來看下 StyleGAN 的合成效果:
          圖片
          StyleGAN 不受監(jiān)督,但它的潛在空間卻表現(xiàn)的令人驚訝。事實證明,StyleGAN 性能非常好,甚至支持線性潛在算法。例如,它支持在一組潛在代碼中添加一個表示年齡的向量,使圖像中人物年齡看起來更年長。研究證明,StyleGAN 不但可以線性的排列潛在空間,也可以以一種解耦(disentangled)的方式,其遍歷方向僅改變特定的圖像屬性,而不影響其他屬性。這些屬性包括全局、與領域無關的方面(例如視角),但也包括特定領域的屬性,例如人臉的表情或性別、汽車顏色、狗品種等(參見圖 1 和圖 2)。
          圖片
          在本文中,來自特拉維夫大學的多位研究者撰文描述了 StyleGAN 目前取得的成功,并分析了其存在的嚴重缺陷。該研究首先討論網(wǎng)絡架構(gòu)本身,并分析了 StyleGAN 自出現(xiàn)以來在先進生成模型中所起的作用。之后,該研究討論了訓練 StyleGAN 所需的資源,并列出減少、復用和回收這些資源的一些研究。
          圖片
          論文地址:https://arxiv.org/pdf/2202.14020.pdf
          StyleGAN 架構(gòu)、方法和應用中的最新技術
          本文共分為 8 個小節(jié):在 2 節(jié)中,該研究將描述了 StyleGAN 的架構(gòu)是如何構(gòu)建的,并試圖理解為什么這種架構(gòu)會引發(fā)如此尖端的新興技術,以及如何改進架構(gòu)以滿足特定需求。
          第 3 節(jié)討論了 StyleGAN 的潛在空間,展示了研究者如何找到線性編輯方向并將其用于強大的語義編輯。傳統(tǒng)上一般的 GAN,特別是 StyleGAN,可用于簡單地生成不同風格的圖像。這些可以作為下游訓練的一種數(shù)據(jù)增強形式(參見第 6 節(jié))。然而,研究已經(jīng)表明 GAN 傾向于平滑地排列其潛在空間,即潛在空間中的接近區(qū)域描繪出相似的圖像。
          第 4 節(jié)主要討論了 StyleGAN 逆映射(inversion)。為了在 StyleGAN 域中表達給定的真實圖像,研究者提出了許多不同的方法,所有這些方法都深入分析和利用了生成器架構(gòu)。一些研究者提出了潛在代碼優(yōu)化,應用數(shù)據(jù)驅(qū)動推理等不同方法,或者尋求適當?shù)妮斎敕N子向量,還有一些研究在推理路徑的其他點與 StyleGAN 交互,從而大大提高了網(wǎng)絡表達能力。StyleGAN 潛在空間的良好行為性質(zhì)在遠離其良好采樣分布的區(qū)域中會減少。這在實踐中意味著給定真實圖像,其重建質(zhì)量(或失真)是以可編輯性為代價的。在這種重建 - 可編輯性權(quán)衡中找到不同的期望點是本節(jié)主要討論點。
          將圖像編碼到 StyleGAN 潛在空間比圖像逆映射本身具有更多優(yōu)點。在許多應用程序中,被編碼的圖像不是所需的潛在代碼應該表示的圖像。這種編碼允許各種圖像到圖像的轉(zhuǎn)換方法。在第 4 節(jié)中,該研究介紹并討論了這種有監(jiān)督和無監(jiān)督的方法。
          在第 6 節(jié)中,該研究展示了 StyleGAN 生成能力,并討論了 StyleGAN 可以利用的判別能力,這包括可解釋性、回歸、分割等方面的應用。
          在大多數(shù)工作和應用中,預訓練 StyleGAN 生成器保持固定。然而,在第 7 節(jié)中,該研究展示了微調(diào) StyleGAN 生成器并修改其權(quán)重以彌合訓練域(域內(nèi))或目標域之間的差距的最新工作。每個部分都針對新手以及經(jīng)驗豐富的研究者,并總結(jié)了最成熟和最有前途的方法,以及如何使用它們。
          下面我們將介紹論文中部分章節(jié)內(nèi)容。
          StyleGAN 架構(gòu)的發(fā)展
          StyleGAN1?;陲L格的生成器架構(gòu),或簡稱 StyleGAN,最初由 Karras 等人在 2019 年提出。StyleGAN 架構(gòu)的核心是風格調(diào)制層(style modulation layers),StyleGAN 的名字就是從這里得來的, 其能夠生成高質(zhì)量的圖像數(shù)據(jù)并且做到了高層特征可控。
          圖片
          StyleGAN2。隨著 StyleGAN 廣泛使用,模型固有的缺點暴露出來,例如偽影問題。此外,研究者還觀察到一種紋理粘附效應,即生成圖像的某些屬性,如牙齒或眼睛,會顯示出強烈的空間偏差,即使通過潛在空間插值也難以解決。在后續(xù)工作中,Karras 等人的研究可以識別偽影來源,并重新設計算法以改進網(wǎng)絡,StyleGAN2 著重處理 StyleGAN 偽影問題,能夠生成質(zhì)量更好的圖像數(shù)據(jù)。
          StyleGAN3。起初,StyleGAN2 似乎解決了紋理粘連問題。然而,研究者通過細致的分析發(fā)現(xiàn),StyleGAN2 雖然已經(jīng)解決了嘴巴或眼睛等大尺寸物體,但在檢查頭發(fā)或胡須等更精細的細節(jié)時仍然存在問題。為了解決這個問題,Karras 等人尋找空間信息可能泄漏到卷積操作中的各種來源,目的是完全恢復網(wǎng)絡的平移不變性。StyleGAN3 的新穎架構(gòu) [Karras et al. 2021] 帶來了顯著的改進,使得插值更加平滑。
          StyleGAN3 對生成細節(jié)的把控令人驚嘆,它從根本上解決了 StyleGAN2 圖像坐標與特征粘連的問題,實現(xiàn)了真正的圖像平移、旋轉(zhuǎn)等不變性,大幅提高了圖像合成質(zhì)量。
          圖片
          當然,訓練模型離不開數(shù)據(jù),當代機器學習一個公開秘密是,許多模型在標準基準上表現(xiàn)出色,但無法推廣到實驗室外,StyleGAN 也不例外。在 StyleGAN 中,學習域似乎需要嚴格的結(jié)構(gòu),而數(shù)據(jù)域應該是凸的,即在每兩個點之間應該有有效的樣本進行插值 。在最近的研究中,Sauer 等人證明,通過擴展模型可以克服數(shù)據(jù)面臨的挑戰(zhàn),但 StyleGAN 獨特的潛在空間屬性是否能通過這種修改持續(xù)存在仍是一個懸而未決的問題。將來,我們可能會看到更多解決顯式數(shù)據(jù)問題的工作,即嘗試將 StyleGAN 應用于其他類型數(shù)據(jù)的工作,或者通過在訓練期間刪除或添加示例以使數(shù)據(jù)的 landscape 更加平滑,或者用更直接地方式處理數(shù)據(jù)中的多模態(tài),或者通過將更精細的注意力機制整合到架構(gòu)中。
          與普通的 GAN 不同,StyleGAN 有不止一個固有的潛在空間。此外,為了增加 StyleGAN 的表現(xiàn)力,通常會使用這些空間的擴展,如圖 6。
          圖片
          潛在空間編輯
          也許 GAN 學習最令人興奮的方面是潛在空間排列方式。傳統(tǒng)上,一般的 GAN,特別是 StyleGAN,可以用來簡單地生成各種各樣的同類圖像。這些可以作為下游訓練數(shù)據(jù)增強的一種形式 (見第 6 節(jié))。然而,已有研究表明,GAN 傾向于平滑地排列其潛在空間,即潛在空間中的封閉區(qū)域描繪相似的圖像。
          事實證明,在潛在空間中遍歷也可以得到所需的語義變化。這些變化包括視點、照明條件和特定于領域的屬性(如人臉的表情、汽車的顏色或建筑物的寬度)的變化。當然,最理想的編輯是解耦編輯,即那些改變一個屬性而不影響其他屬性的編輯。這樣強大的編輯工具的應用是無止境的,從自動添加微笑到面部圖像,通過室內(nèi)設計探索,快速的汽車設計。
          StyleGAN 在結(jié)構(gòu)良好的數(shù)據(jù)上運行得最好,當對這些數(shù)據(jù)進行訓練時,StyleGAN 以一種無監(jiān)督的方式構(gòu)建了一個高度解耦的潛在空間,僅僅憑借歸納偏差。在本研究中,編輯藝術是多樣化的,呈現(xiàn)出從不同領域借來的創(chuàng)造性方法。
          應用程序
          雖然 GAN 具有很強的生成能力,尤其是 StyleGAN,但人們可能會問,使用 GAN 可以解決哪些非生成任務。在其最基本的形式中,GAN 生成大量圖像的能力,基本上都是從相同的目標分布重新采樣的,可用于下游訓練任務的數(shù)據(jù)豐富和增強。事實上,早期研究提出使用 GAN 作為增強工具來生成更多的訓練數(shù)。
          利用 GAN 的編輯能力,Chai 等人通過在測試時增強輸入圖像,提出了一種用于圖像分類的集成方法。輸入被投影到預訓練生成器的潛在空間中,并對其應用風格混合等編輯操作,生成不同的視圖。之后生成的圖像輸入分類網(wǎng)絡,模型的最終預測基于對所有圖像的網(wǎng)絡預測的集合。與深度學習中的傳統(tǒng)集成不同,其中多個模型的預測被組合以產(chǎn)生最終結(jié)果,該方法建議使用同一圖像的不同視圖(同時保留其身份)并在測試時集成分類器對圖像的預測。
          為了以新的方式利用 StyleGAN 的語義理解,Peebles 等人提出了一種新的框架來處理密集視覺對齊的任務。如圖 11c 所示。一旦兩種操作收斂到一個視點,就可以使用 STN 來對齊真實圖像。
          圖片
          另一個關鍵方面是避免扭曲圖像的未編輯部分,通常稱為保留原始身份。例如,對人臉微笑的編輯不應改變發(fā)型等屬性。一些研究專注于面部圖像,其中可以使用面部識別網(wǎng)絡評估身份。
          另一個問題是圖像質(zhì)量。StyleGAN 的主要優(yōu)勢之一是高質(zhì)量的視覺效果,編輯方法應該致力于保持這種效果。然而,編輯可能會導致編輯后的數(shù)據(jù)與真實數(shù)據(jù)之間存在較大的偏差,從而導致評估不準確。如果可能,可以使用分類器或回歸模型來平衡圖像集合與某些屬性之間的關系。Zhu 等人提出了評估插值質(zhì)量方法,他們建議,即使對于插值圖像,良好的可編輯性也應該保留 StyleGAN 的高質(zhì)量,他們使用 FID 度量。最后,一些研究利用用戶研究來評估編輯質(zhì)量,盡管這種方法對編輯過程有深刻的理解,但它會消耗大量資源并且容易受到不必要的操作。直到今天,對于潛在的操作質(zhì)量,還沒有被廣泛接受的評估指標。
           更多細節(jié),請查看原論文。


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關鍵詞: AI

          相關推薦

          技術專區(qū)

          關閉