SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了嗎?一文總結(jié)超分辨率分析必備經(jīng)典模型(三)-3
信息性特征在單幅圖像的超分辨率任務(wù)中起著至關(guān)重要的作用。通道注意力已經(jīng)被證明可以有效地保留每一層的信息豐富的特征。然而,通道注意力將每個卷積層作為一個單獨的過程,忽略了不同層之間的關(guān)聯(lián)性。為了解決這個問題,本文提出了一個新的整體注意力網(wǎng)絡(luò)(holistic attention network,HAN),它由一個層注意力模塊(layer attention module ,LAM)和一個通道-空間注意力模塊(channel-spatial attention module,CSAM)組成,用來模擬層、通道和位置之間的整體相互依賴關(guān)系。具體來說,LAM通過考慮各層之間的相關(guān)性,自適應(yīng)地強調(diào)層次特征。同時,CSAM學(xué)習(xí)每個通道所有位置的置信度,以選擇性地捕獲更多的信息特征。
圖7 HAN網(wǎng)絡(luò)結(jié)構(gòu)。給定一個低分辨率的圖像,HAN的第一個卷積層提取一組淺層的特征圖。然后,一系列的殘差組進一步提取低分辨率輸入的更深層次的特征表示。作者提出了一個層注意模塊(LAM)來學(xué)習(xí)來自RGs的每個輸出的相關(guān)性,以及一個通道-空間注意力模塊(CSAM)來研究通道和像素之間的相互依賴關(guān)系。最后,一個上采樣塊生成了高分辨率的圖像
如圖7所示,HAN由四部分組成:特征提取、層注意力模塊、通道空間注意力模塊和最終的重構(gòu)模塊。給定LR,HAN的第一個卷積層提取一組淺層特征圖,然后一系列殘差組進一步提取LR的深層特征。其間,利用所提出的LAM來學(xué)習(xí)殘差組輸出的特征圖的相關(guān)性,以及一個CSAM來研究通道和像素之間的相互依賴關(guān)系。最后,通過上采樣模塊產(chǎn)生HR。
首先對輸入的LR圖像進行卷積提取淺層特征:
然后使用RCAN網(wǎng)絡(luò)的框架,設(shè)置N個residual group(RG)得到中間特征:
對提取到的特征進行整體特征加權(quán),包括:i)對層級特征即各F_i的層次注意 ii)對RCAN最后一層F_N的通道-空間注意力:
其中,H_LA表示LAM模塊, L從RGs的輸出特征中學(xué)習(xí)特征相關(guān)矩陣,然后為各F_i加權(quán)。結(jié)果表明,該方法能夠增強高貢獻的特征層,抑制冗余特征層。
其中,H_CSA表示CSAM模塊。通道-空間注意力的目的是通過調(diào)節(jié)特征,自適應(yīng)地捕捉通道間和通道內(nèi)更重要的信息,以便最終的重建處理。基于準(zhǔn)確性與效率的權(quán)衡考量,此步只以 F_N作為輸入。在LAM和CSAM分別提取特征后,對兩者結(jié)果聯(lián)合處理,采用亞像素卷積的上采樣方法:
選擇L1距離作為損失函數(shù):
圖8 LAM圖示
LAM模塊的輸入是從N 個residual group提取到的各層次特征圖,維度為N×H×W×C,并將其reshape至N×HWC維度,和對應(yīng)的轉(zhuǎn)置矩陣進行矩陣相乘,計算得到各層之間的相關(guān)系數(shù)W_la:
其中,δ表示softmax,ψ表示reshape操作,w_i,j代表第i個和第j個特征圖間的相關(guān)系數(shù)。將各矩陣加權(quán)相乘后再加上原矩陣,得到F_Lj :
圖9 通道-空間注意力模塊
然后,將最后一層的特征圖F_N作為輸入,通過三維卷積層獲得通道和空間特征W_csa,這樣可以得到更有效的通道內(nèi)和通道間信息。
此外,將注意力映射圖W_csa和輸入特征F_v進行元素乘法運算。最后,將加權(quán)后的結(jié)果乘以一個比例因子β,再加入輸入特征F_N得到加權(quán)特征F_cs,其中,σ為sigmoid函數(shù),β為比例因子,初始化為0。
當(dāng)前SOTA!平臺收錄HAN+共2個模型實現(xiàn)。
HAN+ | 前往 SOTA!模型平臺獲取實現(xiàn)資源:https://sota.jiqizhixin.com/project/han-4 |
5、 Config (f)
該方法是GAN在SR中的應(yīng)用。作者修改了生成器以估計一個分布作為隨機噪聲的映射,此外改進了阻礙知覺訓(xùn)練目標(biāo)的內(nèi)容損失,還提出了額外的訓(xùn)練技術(shù)以進一步提高生成圖像的感知質(zhì)量。
圖10 循環(huán)一致性損失是通過比較LR圖像和下采樣的SR圖像來測量的。鑒別器得到了目標(biāo)圖像和通過對LR圖像進行雙三次上采樣生成的參考圖像
如圖10所示,作者將超分辨率問題視為LR和HR圖像空間之間的圖像轉(zhuǎn)換任務(wù),并應(yīng)用CycleGAN框架。為了簡化問題,利用對G2:HR→LR的先驗知識,可以將降采樣操作表示為f,并將G2設(shè)置為f,而不是學(xué)習(xí)它。這就只剩下G1和D1需要學(xué)習(xí)。作者提出循環(huán)一致性損失( cycle consistency loss)。這個損失不會以任何方式懲罰高頻細節(jié)的生成,同時確保SR圖像與LR圖像保持一致。最后,生成器損失為:
為了使生成器能夠在給定的單一圖像中生成一個以上的解決方案,它必須接收和應(yīng)用隨機信息。超分辨率圖像之間的變化將主要是高頻紋理的隨機變化。StyleGAN通過向生成器中每一層的輸出添加像素級的高斯噪聲來實現(xiàn)圖像的隨機變化,本文引入了這種方法,在生成器的每一個RRDB(Residual in Residual Dense Block)層之后添加噪聲。然而,這就在噪聲的大小方面引入了新的超參數(shù)。作者還觀察到,各層和各通道的敏感性和所需的噪聲大小是不同的。在每一層之后直接添加相同的噪聲可能會損害生成器的性能。例如,檢測邊緣的通道會受到噪聲的嚴(yán)重?fù)p害。為了緩解這種可能的問題,作者允許每個通道自適應(yīng)地學(xué)習(xí)所需的噪聲大小。具體來說,在將噪聲添加到每一層的輸出之前,將噪聲與一個通道的縮放因子相乘??s放因子是與網(wǎng)絡(luò)參數(shù)同時學(xué)習(xí)的。噪聲在評估時不被應(yīng)用。
傳統(tǒng)上,鑒別器網(wǎng)絡(luò)接收單一的圖像,并被訓(xùn)練來分類給定的圖像是真實的還是生成的圖像。這種設(shè)置將為生成器提供指向 "任何自然圖像 "的梯度,而不是指向相應(yīng)的HR圖像。在一個極端的例子中,傳統(tǒng)的鑒別器不會因為生成器從LR圖像中生成完全不同但同樣真實的圖像而受到懲罰。雖然由于其他內(nèi)容和感知損失的存在,這不太可能,但對于超分辨率的任務(wù)來說,鑒別器給出的梯度反饋是次優(yōu)的。作為一種解決方案,作者將低分辨率的圖像作為參考,與目標(biāo)圖像一起提供給鑒別器。這使鑒別器能夠?qū)W習(xí)更多的重要特征來鑒別生成的圖像,并根據(jù)LR圖像提供更好的梯度反饋。
作者建議在網(wǎng)絡(luò)對patch進行訓(xùn)練之前,檢測并去除模糊的patch。有各種模糊檢測的方法,例如算法方法和基于深度學(xué)習(xí)的方法。然而,大多數(shù)基于深度學(xué)習(xí)的工作側(cè)重于預(yù)測圖像的像素級模糊圖,作者認(rèn)為這并不能滿足本文的需要,而選擇了算法方法。如圖11,作者測量patch的Laplacian activation的方差,并認(rèn)為方差低于100的patch是模糊的patch。該算法在DIV2K數(shù)據(jù)集的16,000個96×96大小的隨機裁剪的patch樣本中檢測到28.8%的模糊patch,在DIV8K數(shù)據(jù)集的140,000個patch樣本中檢測到48.9%的patch。
圖11 在DIV8K數(shù)據(jù)集的圖像0031上測試的隨機選擇的模糊檢測算法樣本。上面兩行是被分類為清晰的patch,下面幾行是模糊的patch。圖像中清晰的區(qū)域(人、桿)被檢測算法正確地認(rèn)為是清晰的patch
當(dāng)前SOTA!平臺收錄Config (f)共1個模型實現(xiàn)。
Config (f) | 前往 SOTA!模型平臺獲取實現(xiàn)資源:https://sota.jiqizhixin.com/project/config-f |
前往 SOTA!模型資源站(sota.jiqizhixin.com)即可獲取本文中包含的模型實現(xiàn)代碼、預(yù)訓(xùn)練模型及API等資源。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。