色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > 特拉維夫大學把StyleGAN進行了大匯總，全面了解SOTA方法、架構(gòu)新進展

特拉維夫大學把StyleGAN進行了大匯總，全面了解SOTA方法、架構(gòu)新進展

發(fā)布人：機器之心時間：2022-04-09 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

一文了解 StyleGAN 架構(gòu)、方法和應用的最新進展。

GAN 生成高分辨率圖像的能力正在徹底改變圖像合成和處理領域。2019 年 Karras 等人提出 StyleGAN ，該技術走到了圖像合成的最前沿，被公認為是最先進的高質(zhì)量圖像生成器。我們先來看下 StyleGAN 的合成效果：

StyleGAN 不受監(jiān)督，但它的潛在空間卻表現(xiàn)的令人驚訝。事實證明，StyleGAN 性能非常好，甚至支持線性潛在算法。例如，它支持在一組潛在代碼中添加一個表示年齡的向量，使圖像中人物年齡看起來更年長。研究證明，StyleGAN 不但可以線性的排列潛在空間，也可以以一種解耦（disentangled）的方式，其遍歷方向僅改變特定的圖像屬性，而不影響其他屬性。這些屬性包括全局、與領域無關的方面（例如視角），但也包括特定領域的屬性，例如人臉的表情或性別、汽車顏色、狗品種等（參見圖 1 和圖 2）。

在本文中，來自特拉維夫大學的多位研究者撰文描述了 StyleGAN 目前取得的成功，并分析了其存在的嚴重缺陷。該研究首先討論網(wǎng)絡架構(gòu)本身，并分析了 StyleGAN 自出現(xiàn)以來在先進生成模型中所起的作用。之后，該研究討論了訓練 StyleGAN 所需的資源，并列出減少、復用和回收這些資源的一些研究。

論文地址：https://arxiv.org/pdf/2202.14020.pdf
StyleGAN 架構(gòu)、方法和應用中的最新技術
本文共分為 8 個小節(jié)：在 2 節(jié)中，該研究將描述了 StyleGAN 的架構(gòu)是如何構(gòu)建的，并試圖理解為什么這種架構(gòu)會引發(fā)如此尖端的新興技術，以及如何改進架構(gòu)以滿足特定需求。
第 3 節(jié)討論了 StyleGAN 的潛在空間，展示了研究者如何找到線性編輯方向并將其用于強大的語義編輯。傳統(tǒng)上一般的 GAN，特別是 StyleGAN，可用于簡單地生成不同風格的圖像。這些可以作為下游訓練的一種數(shù)據(jù)增強形式（參見第 6 節(jié)）。然而，研究已經(jīng)表明 GAN 傾向于平滑地排列其潛在空間，即潛在空間中的接近區(qū)域描繪出相似的圖像。
第 4 節(jié)主要討論了 StyleGAN 逆映射（inversion）。為了在 StyleGAN 域中表達給定的真實圖像，研究者提出了許多不同的方法，所有這些方法都深入分析和利用了生成器架構(gòu)。一些研究者提出了潛在代碼優(yōu)化，應用數(shù)據(jù)驅(qū)動推理等不同方法，或者尋求適當?shù)妮斎敕N子向量，還有一些研究在推理路徑的其他點與 StyleGAN 交互，從而大大提高了網(wǎng)絡表達能力。StyleGAN 潛在空間的良好行為性質(zhì)在遠離其良好采樣分布的區(qū)域中會減少。這在實踐中意味著給定真實圖像，其重建質(zhì)量（或失真）是以可編輯性為代價的。在這種重建 - 可編輯性權(quán)衡中找到不同的期望點是本節(jié)主要討論點。
將圖像編碼到 StyleGAN 潛在空間比圖像逆映射本身具有更多優(yōu)點。在許多應用程序中，被編碼的圖像不是所需的潛在代碼應該表示的圖像。這種編碼允許各種圖像到圖像的轉(zhuǎn)換方法。在第 4 節(jié)中，該研究介紹并討論了這種有監(jiān)督和無監(jiān)督的方法。
在第 6 節(jié)中，該研究展示了 StyleGAN 生成能力，并討論了 StyleGAN 可以利用的判別能力，這包括可解釋性、回歸、分割等方面的應用。
在大多數(shù)工作和應用中，預訓練 StyleGAN 生成器保持固定。然而，在第 7 節(jié)中，該研究展示了微調(diào) StyleGAN 生成器并修改其權(quán)重以彌合訓練域（域內(nèi)）或目標域之間的差距的最新工作。每個部分都針對新手以及經(jīng)驗豐富的研究者，并總結(jié)了最成熟和最有前途的方法，以及如何使用它們。
下面我們將介紹論文中部分章節(jié)內(nèi)容。
StyleGAN 架構(gòu)的發(fā)展
StyleGAN1?；陲L格的生成器架構(gòu)，或簡稱 StyleGAN，最初由 Karras 等人在 2019 年提出。StyleGAN 架構(gòu)的核心是風格調(diào)制層（style modulation layers），StyleGAN 的名字就是從這里得來的，其能夠生成高質(zhì)量的圖像數(shù)據(jù)并且做到了高層特征可控。

StyleGAN2。隨著 StyleGAN 廣泛使用，模型固有的缺點暴露出來，例如偽影問題。此外，研究者還觀察到一種紋理粘附效應，即生成圖像的某些屬性，如牙齒或眼睛，會顯示出強烈的空間偏差，即使通過潛在空間插值也難以解決。在后續(xù)工作中，Karras 等人的研究可以識別偽影來源，并重新設計算法以改進網(wǎng)絡，StyleGAN2 著重處理 StyleGAN 偽影問題，能夠生成質(zhì)量更好的圖像數(shù)據(jù)。
StyleGAN3。起初，StyleGAN2 似乎解決了紋理粘連問題。然而，研究者通過細致的分析發(fā)現(xiàn)，StyleGAN2 雖然已經(jīng)解決了嘴巴或眼睛等大尺寸物體，但在檢查頭發(fā)或胡須等更精細的細節(jié)時仍然存在問題。為了解決這個問題，Karras 等人尋找空間信息可能泄漏到卷積操作中的各種來源，目的是完全恢復網(wǎng)絡的平移不變性。StyleGAN3 的新穎架構(gòu) [Karras et al. 2021] 帶來了顯著的改進，使得插值更加平滑。
StyleGAN3 對生成細節(jié)的把控令人驚嘆，它從根本上解決了 StyleGAN2 圖像坐標與特征粘連的問題，實現(xiàn)了真正的圖像平移、旋轉(zhuǎn)等不變性，大幅提高了圖像合成質(zhì)量。

當然，訓練模型離不開數(shù)據(jù)，當代機器學習一個公開秘密是，許多模型在標準基準上表現(xiàn)出色，但無法推廣到實驗室外，StyleGAN 也不例外。在 StyleGAN 中，學習域似乎需要嚴格的結(jié)構(gòu)，而數(shù)據(jù)域應該是凸的，即在每兩個點之間應該有有效的樣本進行插值。在最近的研究中，Sauer 等人證明，通過擴展模型可以克服數(shù)據(jù)面臨的挑戰(zhàn)，但 StyleGAN 獨特的潛在空間屬性是否能通過這種修改持續(xù)存在仍是一個懸而未決的問題。將來，我們可能會看到更多解決顯式數(shù)據(jù)問題的工作，即嘗試將 StyleGAN 應用于其他類型數(shù)據(jù)的工作，或者通過在訓練期間刪除或添加示例以使數(shù)據(jù)的 landscape 更加平滑，或者用更直接地方式處理數(shù)據(jù)中的多模態(tài)，或者通過將更精細的注意力機制整合到架構(gòu)中。
與普通的 GAN 不同，StyleGAN 有不止一個固有的潛在空間。此外，為了增加 StyleGAN 的表現(xiàn)力，通常會使用這些空間的擴展，如圖 6。

潛在空間編輯
也許 GAN 學習最令人興奮的方面是潛在空間排列方式。傳統(tǒng)上，一般的 GAN，特別是 StyleGAN，可以用來簡單地生成各種各樣的同類圖像。這些可以作為下游訓練數(shù)據(jù)增強的一種形式 (見第 6 節(jié))。然而，已有研究表明，GAN 傾向于平滑地排列其潛在空間，即潛在空間中的封閉區(qū)域描繪相似的圖像。
事實證明，在潛在空間中遍歷也可以得到所需的語義變化。這些變化包括視點、照明條件和特定于領域的屬性（如人臉的表情、汽車的顏色或建筑物的寬度）的變化。當然，最理想的編輯是解耦編輯，即那些改變一個屬性而不影響其他屬性的編輯。這樣強大的編輯工具的應用是無止境的，從自動添加微笑到面部圖像，通過室內(nèi)設計探索，快速的汽車設計。
StyleGAN 在結(jié)構(gòu)良好的數(shù)據(jù)上運行得最好，當對這些數(shù)據(jù)進行訓練時，StyleGAN 以一種無監(jiān)督的方式構(gòu)建了一個高度解耦的潛在空間，僅僅憑借歸納偏差。在本研究中，編輯藝術是多樣化的，呈現(xiàn)出從不同領域借來的創(chuàng)造性方法。
應用程序
雖然 GAN 具有很強的生成能力，尤其是 StyleGAN，但人們可能會問，使用 GAN 可以解決哪些非生成任務。在其最基本的形式中，GAN 生成大量圖像的能力，基本上都是從相同的目標分布重新采樣的，可用于下游訓練任務的數(shù)據(jù)豐富和增強。事實上，早期研究提出使用 GAN 作為增強工具來生成更多的訓練數(shù)。
利用 GAN 的編輯能力，Chai 等人通過在測試時增強輸入圖像，提出了一種用于圖像分類的集成方法。輸入被投影到預訓練生成器的潛在空間中，并對其應用風格混合等編輯操作，生成不同的視圖。之后生成的圖像輸入分類網(wǎng)絡，模型的最終預測基于對所有圖像的網(wǎng)絡預測的集合。與深度學習中的傳統(tǒng)集成不同，其中多個模型的預測被組合以產(chǎn)生最終結(jié)果，該方法建議使用同一圖像的不同視圖（同時保留其身份）并在測試時集成分類器對圖像的預測。
為了以新的方式利用 StyleGAN 的語義理解，Peebles 等人提出了一種新的框架來處理密集視覺對齊的任務。如圖 11c 所示。一旦兩種操作收斂到一個視點，就可以使用 STN 來對齊真實圖像。

另一個關鍵方面是避免扭曲圖像的未編輯部分，通常稱為保留原始身份。例如，對人臉微笑的編輯不應改變發(fā)型等屬性。一些研究專注于面部圖像，其中可以使用面部識別網(wǎng)絡評估身份。
另一個問題是圖像質(zhì)量。StyleGAN 的主要優(yōu)勢之一是高質(zhì)量的視覺效果，編輯方法應該致力于保持這種效果。然而，編輯可能會導致編輯后的數(shù)據(jù)與真實數(shù)據(jù)之間存在較大的偏差，從而導致評估不準確。如果可能，可以使用分類器或回歸模型來平衡圖像集合與某些屬性之間的關系。Zhu 等人提出了評估插值質(zhì)量方法，他們建議，即使對于插值圖像，良好的可編輯性也應該保留 StyleGAN 的高質(zhì)量，他們使用 FID 度量。最后，一些研究利用用戶研究來評估編輯質(zhì)量，盡管這種方法對編輯過程有深刻的理解，但它會消耗大量資源并且容易受到不必要的操作。直到今天，對于潛在的操作質(zhì)量，還沒有被廣泛接受的評估指標。
更多細節(jié)，請查看原論文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

相關推薦

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

WTC-AI太陽能熱水器電路圖

設計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

AI+機器視覺成趨勢，圖文詳解N大應用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

WTC-AI型太陽能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

iPhone 16將不會預裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術 | 2023-04-25

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

萬家樂JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

焦點

推薦視頻

更多>>

技術專區(qū)

關閉

<center id="ecwuq"></center>