色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<bdo id="rn3nw"><ins id="rn3nw"></ins></bdo>

<source id="rn3nw"></source>

"); //-->

博客專欄

EEPW首頁 > 博客 > 一張圖像百般變化，英偉達用GAN實現(xiàn)高精度細節(jié)P圖

一張圖像百般變化，英偉達用GAN實現(xiàn)高精度細節(jié)P圖

發(fā)布人：機器之心時間：2021-11-21 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

在實現(xiàn)復雜且高精度圖像編輯效果的同時，EditGAN 還能保持較高的圖像質量和對象身份，英偉達在圖像處理領域果然「出手不凡」。

當前，AI 驅動的照片和圖像編輯技術有助于簡化攝影師和內(nèi)容創(chuàng)作者的工作流程，并賦能更高水平的創(chuàng)意和數(shù)字藝術?；?AI 的圖像編輯工具也已經(jīng)以神經(jīng)照片編輯過濾器（filter）的形式應用在消費級軟件上，并且深度學習研究社區(qū)積極地開發(fā)新的技術。其中，各式各樣基于生成對抗網(wǎng)絡（GAN）的模型和技術層出不窮，在實現(xiàn)原理上，領域研究人員要么將圖像嵌入到 GAN 的隱空間，要么直接使用 GAN 生成圖像。

大多數(shù)基于 GAN 的圖像編輯方法分為以下幾類。一些工作依賴于 GAN 在類標簽或像素級語義分割注釋上發(fā)揮作用，不同的條件會使輸出結果出現(xiàn)變動；另一些工作使用輔助的屬性分類器來指導圖像的合成和編輯。然而，訓練這種條件式 GAN 或外部分類器需要大規(guī)模的標注數(shù)據(jù)集。因此，這些方法目前僅適用于擁有大規(guī)模標注數(shù)據(jù)集的圖像類型，如肖像等。即使擁有足夠注釋的數(shù)據(jù)集，大多數(shù)方法也僅能提供有限的編輯控制，這是因為這些注釋通常僅包含高級的全局屬性或者比較粗糙的像素級分割。

另一些方法專注于對不同圖像的特征進行混合和插值，因此需要參照圖像作為編輯目標，通常也無法提供微調(diào)控制。還有一些方法仔細剖析 GAN 的隱空間，找出適合編輯的解耦隱變量或者控制 GAN 的網(wǎng)絡參數(shù)。但遺憾的是，這些方法無法實現(xiàn)精細的編輯，速度也通常較慢。

近日，英偉達、多倫多大學等機構在論文《EditGAN: High-Precision Semantic Image Editing》中克服了這些局限，并提出了一個全新的基于 GAN 的圖像編輯框架 EditGAN——通過允許用戶修改對象部件（object part）分割實現(xiàn)高精度的語義圖像編輯。

相關研究已被 NeurIPS 2021 會議接收，代碼和交互式編輯工具之后也會開源。

論文地址：https://arxiv.org/pdf/2111.03186.pdf

項目主頁：https://nv-tlabs.github.io/editGAN/

具體而言，EditGAN 在最近提出的 GAN 模型基礎上構建，不僅基于相同的潛在隱編碼來共同地建模圖像及其語義分割，而且僅需要 16 個標注示例，從而可以擴展至很多目標類和部件標簽。研究者根據(jù)預期編輯結果來修改分割掩碼，并優(yōu)化隱編碼以與新的分割保持一致，這樣就可以高效地改變 RGB 圖像。

此外，為了實現(xiàn)效率，他們通過學習隱空間中的編輯向量（editing vector）來實現(xiàn)編輯，并在無需或僅需少量額外優(yōu)化步驟的情況下直接在其他圖像上應用。因此，研究者預訓練了一個感興趣編輯的庫以使得用戶可以在交互工具中直接使用。

研究者表示，EditGAN 是首個同時實現(xiàn)以下目標的 GAN 驅動的圖像編輯框架：

提供非常高精度的編輯；

僅需極少量的標注訓練數(shù)據(jù)，并且不依賴額外的分類器；

實時交互運行；

多個編輯的直接語義合成；

在真實的嵌入式、GAN 生成的甚至域外（out-of-domain）圖像上運行。

研究者在包括汽車、貓、鳥和人臉等在內(nèi)的廣泛圖像上應用了 EditGAN，最終都展現(xiàn)出了前所未有的高精度編輯。他們還將 EditGAN 與多個基準方法進行定量比較，并在身份和質量保持、目標屬性準確性等指標上勝過它們，同時需要的標注訓練數(shù)據(jù)少了數(shù)個量級。

在項目主頁中，研究者展示了多個 EditGAN 相關的 Demo 視頻，如下動圖（左）為編輯向量插值效果，圖（右）為在域外圖像上應用 EditGAN 編輯向量的效果。

下圖（左）為交互 demo 工具中使用 EditGAN 的效果，圖（右）為使用 EditGAN 時可以實現(xiàn)多個編輯和預定義編輯向量。

使用 EditGAN 如何完成高精度語義圖像編輯？

下圖 2（1）為訓練 EditGAN 的流程；圖 2（2&3）分別為編輯分割掩碼和利用編輯向量的實時編輯，其中用戶可以修改分割掩碼，并由此在 GAN 的隱空間中進行優(yōu)化以實現(xiàn)編輯；圖 2（4）為在隱空間中學習編輯向量，用戶通過應用以往學習到的編輯向量進行編輯，并可以交互式地操縱圖像。

通過分割編輯在隱空間中找出語義

EditGAN 的核心思想是在實現(xiàn)高精度圖像編輯中利用圖像和語義分割的聯(lián)合分布 p(x, y)。給定一張待編輯的新圖像 x，我們可以將它嵌入到 EditGAN 的 W^+ 隱空間中。然后，分割部分將生成相應的分割 y，這是因為分割和 RGB 圖像共享相同的隱編碼 w^+。使用簡單的交互式數(shù)字繪畫或標注工具，即可根據(jù)預期的編輯手動修改分割。研究者將編輯的分割掩碼表示為了 y_edited。

例如，當修改右側汽車照片中的車輪時，Q_edit 將包含輪胎、輻條和輪轂等所有與車輪相關的零件的標簽：

推理過程中不同的編輯方法

總的來說，我們可以通過以下三種不同的模式使用 EditGAN 進行圖像編輯：

使用編輯向量進行實時編輯。對于局部解耦良好的編輯，僅通過應用先前學習的具有不同尺度的編輯向量即可進行編輯，并以交互式速率（interactive rate）操縱圖像；

利用自監(jiān)督細化的向量編輯。對于未與圖像其他部分完美解耦的局部編輯，可以通過測試過程中的額外優(yōu)化去除編輯偽影，同時使用學習到的向量初始化編輯；

基于優(yōu)化的編輯。特定圖像和大規(guī)模的編輯不能通過編輯向量遷移到其他圖像。對于此類操作，則可以從零開始進行優(yōu)化。

實驗結果

在實驗部分，研究者在四種不同類別的圖像上對 EditGAN 進行了廣泛的評估，它們分別是：

汽車（空間分辨率 384×512）

鳥（512×512）

貓（256×256）

人臉（1024×1024）

其中，人臉示例的注釋細節(jié)如下圖 7 所示：

當僅基于優(yōu)化或通過學習編輯向量完成編輯時，研究者通常使用 Adam 執(zhí)行 100 steps 的優(yōu)化。對于汽車、貓和人臉，他們使用 DatasetGAN 測試集中的真實圖像，使用這些非 GAN 訓練數(shù)據(jù)的圖像是為了驗證編輯功能；對于鳥，他們在 GAN 生成的圖像上展示編輯功能。

定性結果

首先來看域內(nèi)（in-domain）結果。在下圖 4 中，研究者展示了當在新圖像上應用以往學習到的編輯向量圖片并執(zhí)行 30 steps 的優(yōu)化細化時，EditGAN 框架的圖像編輯效果。結果顯示，使用 EditGAN 的編輯操作保持了高圖像質量并對所有類別的圖像實現(xiàn)了良好的解耦。

研究者表示，以往沒有任何一種方法可以做到像 EditGAN 那樣復雜且高精度的編輯，同時還能保持較高的圖像質量和對象身份。

如下圖 8 所示，使用 EditGAN，研究者甚至可以實現(xiàn)極高精度的編輯，例如旋轉汽車的輪輻（左）或者擴大人的瞳孔（右）。EditGAN 可以對那些像素極少對象的語義部分進行編輯，同時還能實現(xiàn)大規(guī)模的修改。

在下圖 9 中，研究者展示了僅通過修改分割掩碼和優(yōu)化即可以去除汽車的車頂或將其改裝成旅行車。值得注意的是，通過一些編輯操作生成的圖像與 GAN 訓練數(shù)據(jù)中出現(xiàn)的圖像不同。

其次是域外結果。研究者在 MetFaces 數(shù)據(jù)集上展示 EditGAN 對域外數(shù)據(jù)的泛化能力。他們使用在 FFHQ 上訓練的 EditGAN 模型，并使用域內(nèi)真實人臉數(shù)據(jù)創(chuàng)建編輯向量。接著嵌入域外 MetFaces 肖像（使用 100 steps 的優(yōu)化），再通過 30 steps 的優(yōu)化應用編輯向量。結果如下圖 6 所示，該研究的編輯操作無縫地遷移至相差甚遠的域外圖像示例。

定量結果

為了展示 EditGAN 的圖像編輯能力的定量評估結果，研究者使用了 MaskGAN 引入的笑臉編輯（smile edit）基準。中性表情的人臉被轉換為笑臉，并使用以下三項指標對性能進行度量，它們分別是：

語義正確性（Semantic Correctness）

分布級圖像質量（Distribution-level Image Quality）

身份保持（Identity Preservation）

研究者將 EditGAN 與三個強基準方法進行比較，分別是 MaskGAN2、LocalEditing 和 InterFaceGAN，最后還與 StyleGAN2 蒸餾做了比較。結果如下表 2 所示，EditGAN 在三項指標上均優(yōu)于其他方法。此外，EditGAN 在身份保持和屬性分類準確率方面也優(yōu)于 InterFaceGAN。在與 StyleGAN2 蒸餾的比較中，EditGAN 也表現(xiàn)出了強大的性能。

在下圖 11 中，研究者展示了與 InterFaceGAN 比較的更多細節(jié)，其中應用了具有從 0 到 2 不同尺度系數(shù)的笑臉編輯向量。當編輯向量尺度較小時，身份分數(shù)高但笑臉屬性分數(shù)低，這是對原始圖像修改最小化導致的。他們發(fā)現(xiàn)，使用編輯向量的實時編輯效果可以媲美 InterFaceGAN。

最后說下運行時間。研究者仔細記錄了 EditGAN 在 NVIDIA Tesla V100 GPU 上的運行時間。給定一個編輯好的分割掩碼的情況下，走完 30 (60) 個優(yōu)化 steps 的條件式優(yōu)化耗時 11.4 (18.9) 秒。這一操作為他們提供了編輯向量。此外，編輯向量的應用幾乎是瞬間完成的，僅耗時 0.4 秒，因此得以實現(xiàn)復雜的實時交互編輯。走完 10 (30) steps 的自監(jiān)督細化將額外耗時 4.2 (9.5) 秒。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

pwm相關文章:pwm是什么

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

相關推薦

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

WTC-AI型太陽能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術 | 2023-04-25

CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

摩根士丹利：僅 GB200 AI 服務器業(yè)務，就為英偉達創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

WTC-AI太陽能熱水器電路圖

設計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

海聯(lián)達（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

蘋果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

AI+機器視覺成趨勢，圖文詳解N大應用場景

智能計算安森美 AI 機器視覺 | 2024-07-31

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

蘋果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計算 Meta AI | 2024-07-31

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運行AI”

智能計算 AI | 2024-07-31

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

釋說芯語16：硬科技：構建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

AI驅動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

萬家樂JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬家樂 | 2013-01-17

iPhone 16將不會預裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

焦點

推薦視頻

更多>>

技術專區(qū)

關閉

<td id="4a9jq"></td>