語(yǔ)義分割綜述（2）

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2021-10-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

通過(guò)擴(kuò)張卷積進(jìn)行多尺度上下文聚合

論文：Multi-Scale Context Aggregation by Dilated Convolutions (ICLR, 2016)

代碼：https://github.com/fyu/dilation

在本文中，開(kāi)發(fā)了一種融合多尺度上下文信息而不損失分辨率的卷積網(wǎng)絡(luò)模塊。然后可以將該模塊插入到任何分辨率的現(xiàn)有架構(gòu)中。該模塊基于擴(kuò)張卷積。

該模塊在 Pascal VOC 2012 數(shù)據(jù)集上進(jìn)行了測(cè)試。它證明向現(xiàn)有語(yǔ)義分割架構(gòu)添加上下文模塊可以提高其準(zhǔn)確性。

在實(shí)驗(yàn)中訓(xùn)練的前端模塊在 VOC-2012 驗(yàn)證集上實(shí)現(xiàn)了 69.8% 的平均 IoU，在測(cè)試集上實(shí)現(xiàn)了 71.3% 的平均 IoU。該模型對(duì)不同物體的預(yù)測(cè)精度如下圖

DeepLab：使用深度卷積網(wǎng)絡(luò)、Atrous 卷積和全連接 CRF 進(jìn)行語(yǔ)義圖像分割

論文：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (TPAMI, 2017)

代碼：https://github.com/tensorflow/models (非官方)

在本文中，作者對(duì)深度學(xué)習(xí)的語(yǔ)義分割任務(wù)做出了以下貢獻(xiàn)：

用于密集預(yù)測(cè)任務(wù)的帶有上采樣濾波器的卷積

用于多尺度分割目標(biāo)的多孔空間金字塔池化 (ASPP)

通過(guò)使用 DCNN 改進(jìn)對(duì)象邊界的定位。

論文提出的 DeepLab 系統(tǒng)在 PASCAL VOC-2012 語(yǔ)義圖像分割任務(wù)上實(shí)現(xiàn)了 79.7% mIOU。

該論文解決了在語(yǔ)義分割中使用深度 CNN 的主要挑戰(zhàn)，其中包括：

重復(fù)組合最大池化和下采樣導(dǎo)致的特征分辨率降低。

多尺度目標(biāo)的存在。

由于以目標(biāo)為中心的分類器需要空間變換的不變性，因此 DCNN 的不變性導(dǎo)致定位精度降低。

Atrous 卷積是通過(guò)插入零對(duì)濾波器進(jìn)行上采樣或?qū)斎胩卣鲌D進(jìn)行稀疏采樣來(lái)應(yīng)用的。第二種方法需要對(duì)輸入特征圖進(jìn)行一個(gè)等于多孔卷積率 r 的子采樣，并對(duì)其進(jìn)行去隔行掃描以生成 r^2 個(gè)降低分辨率的圖，每個(gè) r×r 可能的移位一個(gè)。在此之后，標(biāo)準(zhǔn)卷積應(yīng)用于直接特征圖，將它們與圖像的原始分辨率交錯(cuò)。

重新思考語(yǔ)義圖像分割的 Atrous 卷積

論文：Rethinking Atrous Convolution for Semantic Image Segmentation (2017)

代碼：https://github.com/pytorch/vision (非官方)

本文解決了使用 DCNN 進(jìn)行語(yǔ)義分割的兩個(gè)挑戰(zhàn)（前面提到過(guò)）；應(yīng)用連續(xù)池化操作和多個(gè)尺度對(duì)象的存在時(shí)發(fā)生的特征分辨率降低。

為了解決第一個(gè)問(wèn)題，論文建議使用atrous卷積，也稱為擴(kuò)張卷積。它提出使用多孔卷積來(lái)擴(kuò)大視野并因此包括多尺度上下文來(lái)解決第二個(gè)問(wèn)題。

該論文的“DeepLabv3”在沒(méi)有 DenseCRF 后處理的 PASCAL VOC 2012 測(cè)試集上實(shí)現(xiàn)了 85.7% 的性能。

用于語(yǔ)義圖像分割的具有 Atrous 可分離卷積的編碼器-****

論文：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV, 2018)

代碼：https://github.com/tensorflow/models

本文的方法“DeepLabv3+”在沒(méi)有對(duì) PASCAL VOC 2012 和 Cityscapes 數(shù)據(jù)集進(jìn)行任何后處理的情況下實(shí)現(xiàn)了 89.0% 和 82.1% 的測(cè)試集性能。該模型是 DeepLabv3 的擴(kuò)展，通過(guò)添加一個(gè)簡(jiǎn)單的****模塊來(lái)細(xì)化分割結(jié)果。

該論文實(shí)現(xiàn)了兩種類型的神經(jīng)網(wǎng)絡(luò)，它們使用空間金字塔池化模塊進(jìn)行語(yǔ)義分割。一種通過(guò)匯集不同分辨率的特征來(lái)捕獲上下文信息，而另一種則獲得清晰的對(duì)象邊界。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

博客專欄

語(yǔ)義分割綜述（2）

相關(guān)推薦

技術(shù)專區(qū)