DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了嗎?一文總結(jié)圖像分割必備經(jīng)典模型(2)
圖6 PSPNet概述。給定一個輸入圖像(a),首先使用CNN來獲得最后一個卷積層的特征圖(b),然后,應(yīng)用一個金字塔解析模塊以生成不同的子區(qū)域表征,接著是上采樣和連接層,以形成最終的特征表征,其中包含了(c)中的局部和全局上下文信息。最后,將該表征送入卷積層以獲得最終的每像素預(yù)測(d)
PSPNet用帶有空洞卷積的預(yù)訓(xùn)練的ResNet作為backbone,最后一層提取的feature map大小為輸入圖像的1/8。PSPNet為四級模塊,其二進制大小分別為1×1、2×2、3×3和6×6。因此,通過融合四個不同金字塔尺寸的特征,將輸入的feature map分為不同的子區(qū)域并生成不同位置的池化表示,從而產(chǎn)生不同尺寸的輸出,為了強化全局特征的權(quán)重,在金字塔層數(shù)為N的情況下,利用一個1x1的卷積將上下文表示的維度降到1/N。然后將得到的特征通過雙線性插值上采樣至相同尺寸,進行拼接后作為最終的全局金字塔池化特征。
經(jīng)過深度預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)能夠改進性能,然而深度的增加也可能會帶來額外的優(yōu)化困難。ResNet通過在每個塊中使用skip connection來解決這個問題。本文在原始殘差網(wǎng)絡(luò)的基礎(chǔ)之上做了一些改進,提出通過另外的損失函數(shù)來產(chǎn)生初始結(jié)果,然后通過最終的損失函數(shù)來學(xué)習(xí)殘差。圖17展示了PSPNet輸入圖像后的預(yù)訓(xùn)練ResNet網(wǎng)絡(luò),改進點在下圖中的“l(fā)oss2”,作者將這個損失作為輔助優(yōu)化的損失,即auxiliary loss,簡稱AR,主損失為下圖中“l(fā)oss1”的分類損失。
圖7 ResNet101中輔助損失的說明。每個藍框表示一個殘差塊。輔助損失是在res4b22殘差塊之后添加的
5、 Dense-Net隨著CNN的層數(shù)不斷加深,信息(輸入信息或者梯度信息)容易出現(xiàn)彌散現(xiàn)象。一些研究專門針對此問題展開,比如ResNets、Stochastic depth和FractalNets。本文引入了密集卷積網(wǎng)絡(luò)(DenseNet),以前饋方式將每一層連接到另一層。具有L層的傳統(tǒng)卷積網(wǎng)絡(luò)有L個連接,每個層與其后續(xù)層之間有一個連接,本文網(wǎng)絡(luò)則具有L(L+1)/2 個直接連接。對于每個層,所有前面層的特征圖用作輸入,其自身的特征圖被用作所有后續(xù)層的輸入。
圖8 一個5層的密集塊,增長率為k=4。每層將所有前面的特征圖作為輸入
將圖像定義為x_0 ,模型有L層,每一層為一個非線性轉(zhuǎn)換Hl(·) ,這里 l 表示第 l 層。Hl(·)可以由以下操作組成,例如,Batch Normalization (BN) 、rectified linear units (ReLU)、 Pooling、 Convolution (Conv)。我們定義第 l 層的輸出為 x_l 。傳統(tǒng)的卷積前饋網(wǎng)絡(luò)將第 l 層的輸出作為第 l+1 層的輸入。即:
而ResNets定義如下:
ResNets的一個缺點是:ResNets使用的是sum操作,這可能會阻礙信息在網(wǎng)絡(luò)的流動。為了進一步提高兩層之間信息的流動,作者提出了一個不同的連接方式,即第 l 層接收前面所有層的feature maps[ x_0,...,x_l?1]作為輸入:
其中,[x_0, x_1, ... , x_l-1]是指各層產(chǎn)生的特征圖的連接。由于其密集的連接性,作者將這種網(wǎng)絡(luò)結(jié)構(gòu)稱為密集卷積網(wǎng)絡(luò)(DenseNet)。為了便于實施,作者將Hl(·)的多個輸入串聯(lián)成一個單一的張量。作者將Hl(·)定義為三個連續(xù)操作的復(fù)合函數(shù):批歸一化(BN)、ReLU和3×3卷積(Conv)。
卷積網(wǎng)絡(luò)的一個必需操作就是下采樣,而這會改變feature maps的大小。但是當(dāng)feature maps的大小發(fā)生改變時,上式不可用。因此,為了能夠在網(wǎng)絡(luò)結(jié)構(gòu)中進行下采樣,作者將網(wǎng)絡(luò)劃分成多個密集塊,如下圖所示:
圖9 有三個密集塊的深度密集網(wǎng)。兩個相鄰塊之間的層被稱為過渡層,通過卷積和池化改變特征圖的大小
作者定義兩個blocks之間的層為過渡層,其包含一個batch normalization、一個1x1卷積層和一個2x2平均池化層。盡管每一層僅僅產(chǎn)生k個feature maps, 但是每一層的輸入依然會很多。因此,作者在3x3卷積前面增加一個1x1卷積(稱為 bottleneck layer),用于減少每一層feature map輸入的數(shù)目。作者將增加了bottleneck layer的Densenet稱為DenseNet-B。
為了進一步提高模型的緊湊性,作者減少過渡層的feature maps的數(shù)量。如果一個dense block包含m個feature maps, 令后面的過渡層產(chǎn)生 [θxm] 個輸出feature maps,這里 0≤θ≤1 , 表示壓縮因子。作者將使用了θ<1 的網(wǎng)絡(luò)稱為DenseNet-C,本實驗中定義θ=0.5 。
6、 Mask-Lab
本文解決的是實例分割的問題,即同時解決對象檢測和語義分割的任務(wù)。論文提出了一個名為MaskLab的模型,它可以產(chǎn)生三個輸出:box檢測、語義分割和方向預(yù)測。MaskLab建立在Faster-RCNN對象檢測器之上,預(yù)測框提供了對象實例的準(zhǔn)確定位。在每個感興趣區(qū)域內(nèi),MaskLab通過組合語義和方向預(yù)測來執(zhí)行前景/背景分割。語義分割有助于模型區(qū)分包括背景在內(nèi)的不同語義類的對象,而方向預(yù)測估計每個像素朝向其相應(yīng)中心的方向,實現(xiàn)分離同一語義類的實例。
圖10 MaskLab產(chǎn)生三種輸出,包括box預(yù)測(來自Faster-RCNN)、語義分割logits(用于像素分類的logits)和方向預(yù)測logits(用于預(yù)測每個像素對其相應(yīng)實例中心的方向的logits)。對于每個感興趣的區(qū)域,通過利用語義分割和方向logits進行前景/背景分割。對于語義分割邏輯,根據(jù)預(yù)測的box標(biāo)簽挑選通道,并根據(jù)預(yù)測的box來裁剪區(qū)域。對于方向預(yù)測Logits,進行方向匯集,從每個通道集合區(qū)域Logits。串聯(lián)這兩個裁剪后的特征,并通過另一個1×1卷積進行前景/背景分割
如圖10,MaskLab采用ResNet-101作為特征提取器。它由三個部分組成,所有的特征共享到conv4(或res4x)塊,還有一個額外的重復(fù)conv5(或res5x)塊用于Faster-RCNN中的box分類器。原始的conv5塊在語義分割和方向預(yù)測中都是共享的。建立在Faster-RCNN之上的MaskLab生成了box預(yù)測、語義分割邏輯(用于像素級分類的邏輯)和方向預(yù)測邏輯(用于預(yù)測每個像素對其相應(yīng)實例中心的方向的邏輯)。語義分割Logits和方向預(yù)測Logits是通過在ResNet-101的conv5塊的最后一個特征圖之后添加的另一個1×1卷積來計算的。鑒于每個預(yù)測的方框(或感興趣的區(qū)域),我們通過利用這兩個邏輯值來進行前景/背景分割。具體的,對來自Faster-RCN預(yù)測的語義通道的裁剪過的語義Logits和經(jīng)過方向匯集后的裁剪過的方向Logits的串聯(lián)進行1×1卷積。
語義和方向特征。MaskLab為一幅圖像生成語義分割日志和方向預(yù)測日志。語義分割邏輯用于預(yù)測像素級的語義標(biāo)簽,它能夠分離不同語義標(biāo)簽的實例,包括背景類。方向預(yù)測Logits用于預(yù)測每個像素對其相應(yīng)實例中心的方向,因此它們對進一步分離相同語義標(biāo)簽的實例很有用。
考慮到來自box預(yù)測分支的預(yù)測box和標(biāo)簽,我們首先從語義分割邏輯中選擇與預(yù)測標(biāo)簽相關(guān)的通道(例如,人物通道),并根據(jù)預(yù)測的box裁剪區(qū)域。為了利用方向信息,我們進行同樣的組合操作,從每個方向通道收集區(qū)域日志(由方向指定)。然后,經(jīng)過裁剪的語義分割邏輯圖和匯集的方向邏輯圖被用于前景/背景分割。圖18給出了具體細節(jié),圖中顯示 "人 "的分割Logits可以清楚地將人與背景和領(lǐng)帶分開,而方向Logits能夠預(yù)測像素對其實例中心的方向。在集合了方向邏輯后,該模型能夠在指定的box區(qū)域內(nèi)進一步分離兩個人。作者提出的方向預(yù)測邏輯是與類別無關(guān)的。具體來說,對于有K個類別的mask分割,模型需要(K+32)個通道(K個用于語義分割,32個用于方向匯集),而輸出2×(K+1)×49個通道。
圖11 語義分割邏輯和方向預(yù)測邏輯被用來在每個預(yù)測的方框內(nèi)進行前景/背景分割。特別是,分割邏輯能夠區(qū)分不同語義類別的實例(例如,人和背景),而方向邏輯(方向是用顏色編碼的)進一步區(qū)分同一語義類別的實例(例如,預(yù)測的藍色方框中的兩個人)。在assembling操作中,區(qū)域Logits(彩色三角形區(qū)域)從每個方向通道復(fù)制。例如,由紅色三角形指定的區(qū)域從紅色方向通道編碼實例方向的0度到45度復(fù)制Logits。粉色通道編碼實例方向從180度到225度的弱激活
Mask細化:作者通過利用HyperColumn特征進一步細化預(yù)測的粗略mask。如圖12所示,生成的粗mask邏輯(僅利用語義和方向特征)與ResNet-101低層的特征相連接,然后由三個額外的卷積層處理,以預(yù)測最終mask。
圖12 mask細化。hypercolumn特征與粗預(yù)測的mask相連接,然后送入另一個小的ConvNet,產(chǎn)生最終的精mask預(yù)測
“裁剪和調(diào)整大小”首先從特征映射中裁剪指定的邊界框區(qū)域,然后將它們雙線性地調(diào)整為指定大小(例如,4×4)。進一步將區(qū)域劃分為若干子框(例如,4個子框,每個子框具有2×2的大?。⑹褂昧硪粋€小網(wǎng)絡(luò)來學(xué)習(xí)每個子框的偏移。最后,依據(jù)每個變形的子框再次執(zhí)行“裁剪并調(diào)整大小”操作。
圖13 可變形裁剪和調(diào)整大小。(a) 裁剪和調(diào)整大小的操作是在一個邊界框區(qū)域內(nèi)裁剪特征,并將其調(diào)整到指定的4×4大小。(b) 然后將4×4區(qū)域分為4個小的子框,每個子框的大小為2×2。然后,對變形的sub-boxes再次進行裁剪和調(diào)整大小
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。