色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 語(yǔ)義分割綜述(1)

          語(yǔ)義分割綜述(1)

          發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2021-10-07 來(lái)源:工程師 發(fā)布文章

          作者:Derrick Mwiti

          編譯:CV技術(shù)指南

          語(yǔ)義分割 (Semantic segmentation) 是指將圖像中的每個(gè)像素鏈接到類標(biāo)簽的過(guò)程。這些標(biāo)簽可能包括人、車、花、家具等。

          我們可以將語(yǔ)義分割視為像素級(jí)別的圖像分類。例如,在有很多汽車的圖像中,分割會(huì)將所有對(duì)象標(biāo)記為汽車對(duì)象。然而,稱為實(shí)例分割 (instance segmentation) 的單獨(dú)類別的模型能夠標(biāo)記對(duì)象出現(xiàn)在圖像中的單獨(dú)實(shí)例。這種分割在用于計(jì)算目標(biāo)數(shù)量的應(yīng)用中非常有用,例如計(jì)算商場(chǎng)中的人流量。

          它的一些主要應(yīng)用是自動(dòng)駕駛汽車、人機(jī)交互、機(jī)器人技術(shù)和照片編輯/創(chuàng)意工具。例如,語(yǔ)義分割在自動(dòng)駕駛汽車和機(jī)器人技術(shù)中非常重要,因?yàn)槟P屠斫馄溥\(yùn)行環(huán)境中的上下文非常重要。

          1.png

          "Two men riding on a bike in front of a building on the road. And there is a car."

          本文將介紹一些關(guān)于構(gòu)建語(yǔ)義分割模型的最新方法的研究論文,即:

          Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

          Fully Convolutional Networks for Semantic Segmentation

          U-Net: Convolutional Networks for Biomedical Image Segmentation

          The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation

          Multi-Scale Context Aggregation by Dilated Convolutions

          DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

          Rethinking Atrous Convolution for Semantic Image Segmentation

          Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

          FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

          Improving Semantic Segmentation via Video Propagation and Label Relaxation

          Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

          文末附以上論文的下載方式

          用于語(yǔ)義圖像分割的深度卷積網(wǎng)絡(luò)的弱監(jiān)督和半監(jiān)督學(xué)習(xí)

          論文:Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV, 2015)

          代碼:https: //bitbucket.org/deeplab/deeplab-public

          本文針對(duì)在深度卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中處理弱標(biāo)記數(shù)據(jù)以及標(biāo)記良好的數(shù)據(jù)和未正確標(biāo)記的數(shù)據(jù)的組合提出了一種解決方案。

          在論文中,應(yīng)用了深度 CNN 與全連接條件隨機(jī)場(chǎng)的組合。

          在 PASCAL VOC 分割基準(zhǔn)上,該模型給出了高于 70% 的平均交并比 (mean intersection-over-union, IOU) 分?jǐn)?shù)。這種模型面臨的主要挑戰(zhàn)之一是它需要在訓(xùn)練期間在像素級(jí)別進(jìn)行注釋的圖像。

          2.png

          本文的主要貢獻(xiàn)是:

          引入可應(yīng)用于弱監(jiān)督和半監(jiān)督設(shè)置的邊界框或圖像級(jí)訓(xùn)練的期望最大化算法。

          證明結(jié)合弱注釋和強(qiáng)注釋可以提高性能。在合并來(lái)自 MS-COCO 數(shù)據(jù)集和 PASCAL 數(shù)據(jù)集的注釋后,本文作者在 PASCAL VOC 2012 上達(dá)到了 73.9% 的 IOU 性能。

          證明他們的方法通過(guò)合并少量像素級(jí)注釋圖像和大量邊界框或圖像級(jí)注釋圖像來(lái)實(shí)現(xiàn)更高的性能。

          3.png

          用于語(yǔ)義分割的全卷積網(wǎng)絡(luò)

          論文:Fully Convolutional Networks for Semantic Segmentation(PAMI,2016)

          代碼:http://fcn.berkeleyvision.org

          本文提出的模型在 PASCAL VOC 2012 上實(shí)現(xiàn)了 67.2% 平均 IU 的性能。

          全連接網(wǎng)絡(luò)獲取任意大小的圖像并生成相應(yīng)空間維度的輸出。在這個(gè)模型中,ILSVRC 分類器被投射到完全連接的網(wǎng)絡(luò)中,并使用像素級(jí)損失和網(wǎng)絡(luò)內(nèi)上采樣來(lái)增強(qiáng)密集預(yù)測(cè)。然后通過(guò)微調(diào)完成分割訓(xùn)練。微調(diào)是通過(guò)在整個(gè)網(wǎng)絡(luò)上的反向傳播來(lái)完成的。

          4.png

          U-Net:用于生物醫(yī)學(xué)圖像分割的卷積網(wǎng)絡(luò)

          論文:U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI, 2015)

          代碼:http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net

          在生物醫(yī)學(xué)圖像處理中,為圖像中的每個(gè)細(xì)胞獲得一個(gè)類別標(biāo)簽是非常重要的。生物醫(yī)學(xué)任務(wù)中最大的挑戰(zhàn)是難以獲取數(shù)千張用于訓(xùn)練的圖像。

          本文建立在完全卷積層的基礎(chǔ)上并對(duì)其進(jìn)行修改以處理一些訓(xùn)練圖像并產(chǎn)生更精確的分割。

          5.png

          由于可用的訓(xùn)練數(shù)據(jù)很少,因此該模型通過(guò)對(duì)可用數(shù)據(jù)應(yīng)用彈性變形來(lái)使用數(shù)據(jù)增強(qiáng)。如上圖 1 所示,網(wǎng)絡(luò)架構(gòu)由左側(cè)的收縮路徑和右側(cè)的擴(kuò)展路徑組成。

          收縮路徑由兩個(gè) 3x3 卷積組成。每個(gè)卷積之后是一個(gè)整流線性單元和一個(gè)用于下采樣的 2x2 最大池化操作。每個(gè)下采樣階段都會(huì)使特征通道的數(shù)量增加一倍。擴(kuò)展路徑步驟包括特征通道的上采樣。接著是 2x2 上卷積,將特征通道的數(shù)量減半。最后一層是 1x1 卷積,用于將組件特征向量映射到所需數(shù)量的類。

          6.png

          在這個(gè)模型中,訓(xùn)練是使用輸入圖像、它們的分割圖和 Caffe 的隨機(jī)梯度下降實(shí)現(xiàn)來(lái)完成的。當(dāng)使用很少的訓(xùn)練數(shù)據(jù)時(shí),數(shù)據(jù)增強(qiáng)用于教導(dǎo)網(wǎng)絡(luò)所需的魯棒性和不變性。該模型在其中一項(xiàng)實(shí)驗(yàn)中取得了 92% 的平均 IOU 分?jǐn)?shù)。

          7.png

          一百層Tiramisu:用于語(yǔ)義分割的全卷積 DenseNets

          論文:The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation (2017)

          代碼:https://github.com/SimJeg/FC-DenseNet

          DenseNets 背后的想法是讓每一層以前饋方式連接到每一層,使網(wǎng)絡(luò)更容易訓(xùn)練和更準(zhǔn)確。

          該模型的架構(gòu)建立在密集的下采樣和上采樣路徑塊中。下采樣路徑有 2 個(gè)向下轉(zhuǎn)換 (TD),而上采樣路徑有 2 個(gè)向上轉(zhuǎn)換 (TU)。圓圈和箭頭代表網(wǎng)絡(luò)內(nèi)的連接模式。

          8.png

          本文的主要貢獻(xiàn)是:

          將 DenseNet 架構(gòu)擴(kuò)展到完全卷積網(wǎng)絡(luò),用于語(yǔ)義分割。

          從密集網(wǎng)絡(luò)中提出比其他上采樣路徑表現(xiàn)更好的上采樣路徑。

          證明該網(wǎng)絡(luò)可以在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中產(chǎn)生SOTA結(jié)果。

          該模型在 CamVid 數(shù)據(jù)集上實(shí)現(xiàn)了 88% 的全局準(zhǔn)確率。

          9.png10.png

          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉