SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了嗎？一文總結(jié)超分辨率分析必備經(jīng)典模型（三）-3

發(fā)布人：機器之心時間：2023-04-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

4、 HAN+

信息性特征在單幅圖像的超分辨率任務(wù)中起著至關(guān)重要的作用。通道注意力已經(jīng)被證明可以有效地保留每一層的信息豐富的特征。然而，通道注意力將每個卷積層作為一個單獨的過程，忽略了不同層之間的關(guān)聯(lián)性。為了解決這個問題，本文提出了一個新的整體注意力網(wǎng)絡(luò)（holistic attention network，HAN），它由一個層注意力模塊（layer attention module ，LAM）和一個通道-空間注意力模塊（channel-spatial attention module，CSAM）組成，用來模擬層、通道和位置之間的整體相互依賴關(guān)系。具體來說，LAM通過考慮各層之間的相關(guān)性，自適應(yīng)地強調(diào)層次特征。同時，CSAM學(xué)習(xí)每個通道所有位置的置信度，以選擇性地捕獲更多的信息特征。

圖7 HAN網(wǎng)絡(luò)結(jié)構(gòu)。給定一個低分辨率的圖像，HAN的第一個卷積層提取一組淺層的特征圖。然后，一系列的殘差組進一步提取低分辨率輸入的更深層次的特征表示。作者提出了一個層注意模塊（LAM）來學(xué)習(xí)來自RGs的每個輸出的相關(guān)性，以及一個通道-空間注意力模塊（CSAM）來研究通道和像素之間的相互依賴關(guān)系。最后，一個上采樣塊生成了高分辨率的圖像

如圖7所示，HAN由四部分組成：特征提取、層注意力模塊、通道空間注意力模塊和最終的重構(gòu)模塊。給定LR，HAN的第一個卷積層提取一組淺層特征圖，然后一系列殘差組進一步提取LR的深層特征。其間，利用所提出的LAM來學(xué)習(xí)殘差組輸出的特征圖的相關(guān)性，以及一個CSAM來研究通道和像素之間的相互依賴關(guān)系。最后，通過上采樣模塊產(chǎn)生HR。

首先對輸入的LR圖像進行卷積提取淺層特征：

然后使用RCAN網(wǎng)絡(luò)的框架，設(shè)置N個residual group（RG）得到中間特征：

對提取到的特征進行整體特征加權(quán)，包括：i）對層級特征即各F_i的層次注意 ii）對RCAN最后一層F_N的通道-空間注意力:

其中，H_LA表示LAM模塊, L從RGs的輸出特征中學(xué)習(xí)特征相關(guān)矩陣，然后為各F_i加權(quán)。結(jié)果表明，該方法能夠增強高貢獻的特征層，抑制冗余特征層。

其中，H_CSA表示CSAM模塊。通道-空間注意力的目的是通過調(diào)節(jié)特征，自適應(yīng)地捕捉通道間和通道內(nèi)更重要的信息，以便最終的重建處理。基于準(zhǔn)確性與效率的權(quán)衡考量，此步只以 F_N作為輸入。在LAM和CSAM分別提取特征后，對兩者結(jié)果聯(lián)合處理，采用亞像素卷積的上采樣方法：

選擇L1距離作為損失函數(shù)：

圖8 LAM圖示

LAM模塊的輸入是從N 個residual group提取到的各層次特征圖，維度為N×H×W×C，并將其reshape至N×HWC維度，和對應(yīng)的轉(zhuǎn)置矩陣進行矩陣相乘，計算得到各層之間的相關(guān)系數(shù)W_la：

其中，δ表示softmax，ψ表示reshape操作，w_i,j代表第i個和第j個特征圖間的相關(guān)系數(shù)。將各矩陣加權(quán)相乘后再加上原矩陣，得到F_Lj ：

圖9 通道-空間注意力模塊

然后，將最后一層的特征圖F_N作為輸入，通過三維卷積層獲得通道和空間特征W_csa，這樣可以得到更有效的通道內(nèi)和通道間信息。

此外，將注意力映射圖W_csa和輸入特征F_v進行元素乘法運算。最后，將加權(quán)后的結(jié)果乘以一個比例因子β，再加入輸入特征F_N得到加權(quán)特征F_cs，其中，σ為sigmoid函數(shù)，β為比例因子，初始化為0。

當(dāng)前SOTA！平臺收錄HAN+共2個模型實現(xiàn)。

項目SOTA！平臺項目詳情頁

HAN+	前往 SOTA！模型平臺獲取實現(xiàn)資源：https://sota.jiqizhixin.com/project/han-4

5、 Config (f)

該方法是GAN在SR中的應(yīng)用。作者修改了生成器以估計一個分布作為隨機噪聲的映射，此外改進了阻礙知覺訓(xùn)練目標(biāo)的內(nèi)容損失，還提出了額外的訓(xùn)練技術(shù)以進一步提高生成圖像的感知質(zhì)量。

圖10 循環(huán)一致性損失是通過比較LR圖像和下采樣的SR圖像來測量的。鑒別器得到了目標(biāo)圖像和通過對LR圖像進行雙三次上采樣生成的參考圖像

如圖10所示，作者將超分辨率問題視為LR和HR圖像空間之間的圖像轉(zhuǎn)換任務(wù)，并應(yīng)用CycleGAN框架。為了簡化問題，利用對G2：HR→LR的先驗知識，可以將降采樣操作表示為f，并將G2設(shè)置為f，而不是學(xué)習(xí)它。這就只剩下G1和D1需要學(xué)習(xí)。作者提出循環(huán)一致性損失（ cycle consistency loss）。這個損失不會以任何方式懲罰高頻細節(jié)的生成，同時確保SR圖像與LR圖像保持一致。最后，生成器損失為：

為了使生成器能夠在給定的單一圖像中生成一個以上的解決方案，它必須接收和應(yīng)用隨機信息。超分辨率圖像之間的變化將主要是高頻紋理的隨機變化。StyleGAN通過向生成器中每一層的輸出添加像素級的高斯噪聲來實現(xiàn)圖像的隨機變化，本文引入了這種方法，在生成器的每一個RRDB(Residual in Residual Dense Block)層之后添加噪聲。然而，這就在噪聲的大小方面引入了新的超參數(shù)。作者還觀察到，各層和各通道的敏感性和所需的噪聲大小是不同的。在每一層之后直接添加相同的噪聲可能會損害生成器的性能。例如，檢測邊緣的通道會受到噪聲的嚴(yán)重?fù)p害。為了緩解這種可能的問題，作者允許每個通道自適應(yīng)地學(xué)習(xí)所需的噪聲大小。具體來說，在將噪聲添加到每一層的輸出之前，將噪聲與一個通道的縮放因子相乘?？s放因子是與網(wǎng)絡(luò)參數(shù)同時學(xué)習(xí)的。噪聲在評估時不被應(yīng)用。

傳統(tǒng)上，鑒別器網(wǎng)絡(luò)接收單一的圖像，并被訓(xùn)練來分類給定的圖像是真實的還是生成的圖像。這種設(shè)置將為生成器提供指向 "任何自然圖像 "的梯度，而不是指向相應(yīng)的HR圖像。在一個極端的例子中，傳統(tǒng)的鑒別器不會因為生成器從LR圖像中生成完全不同但同樣真實的圖像而受到懲罰。雖然由于其他內(nèi)容和感知損失的存在，這不太可能，但對于超分辨率的任務(wù)來說，鑒別器給出的梯度反饋是次優(yōu)的。作為一種解決方案，作者將低分辨率的圖像作為參考，與目標(biāo)圖像一起提供給鑒別器。這使鑒別器能夠?qū)W習(xí)更多的重要特征來鑒別生成的圖像，并根據(jù)LR圖像提供更好的梯度反饋。

作者建議在網(wǎng)絡(luò)對patch進行訓(xùn)練之前，檢測并去除模糊的patch。有各種模糊檢測的方法，例如算法方法和基于深度學(xué)習(xí)的方法。然而，大多數(shù)基于深度學(xué)習(xí)的工作側(cè)重于預(yù)測圖像的像素級模糊圖，作者認(rèn)為這并不能滿足本文的需要，而選擇了算法方法。如圖11，作者測量patch的Laplacian activation的方差，并認(rèn)為方差低于100的patch是模糊的patch。該算法在DIV2K數(shù)據(jù)集的16,000個96×96大小的隨機裁剪的patch樣本中檢測到28.8%的模糊patch，在DIV8K數(shù)據(jù)集的140,000個patch樣本中檢測到48.9%的patch。

圖11 在DIV8K數(shù)據(jù)集的圖像0031上測試的隨機選擇的模糊檢測算法樣本。上面兩行是被分類為清晰的patch，下面幾行是模糊的patch。圖像中清晰的區(qū)域（人、桿）被檢測算法正確地認(rèn)為是清晰的patch