干貨匯總:一文讀懂計算機(jī)視覺,干貨滿滿記得收藏
前言
計算機(jī)視覺(Computer Vision),通常簡稱CV,是一個通過技術(shù)幫助計算機(jī)“看到”并“看懂”圖像的研究領(lǐng)域,例如使計算機(jī)理解照片或視頻的內(nèi)容。
這篇文章將對計算機(jī)視覺進(jìn)行整體介紹。本文章共分為六個部分,分別是:
·計算機(jī)視覺為什么重要
·什么是計算機(jī)視覺
·計算機(jī)視覺的基本原理
·計算機(jī)視覺的典型任務(wù)
·計算機(jī)視覺在日常生活中的應(yīng)用場景
·計算機(jī)視覺面臨的挑戰(zhàn)
2
計算機(jī)視覺為什么重要
在生理學(xué)上,視覺(Vision)的產(chǎn)生都始于視覺器官感受細(xì)胞的興奮,并于視覺神經(jīng)系統(tǒng)對收集到的信息進(jìn)行加工之后形成。我們?nèi)祟愅ㄟ^視覺來直觀地了解眼前事物的形體和狀態(tài),大部分人依靠視覺來完成做飯、越過障礙、讀路牌、看視頻以及無數(shù)其他任務(wù)。事實上,如果不是盲人這類特殊群體,絕大多數(shù)人對外界信息的獲取都是通過視覺完成的,而這個占比高達(dá)80%以上——這個比例并不是沒有根據(jù)的,著名實驗心理學(xué)家赤瑞特拉(Treicher)曾通過大量的實驗證實:人類獲取的信息的83%來自視覺,11%來自聽覺,剩下的6%來自嗅覺、觸覺、味覺。所以,對于人類來說,視覺無疑是最重要的一種感覺。
不僅人類是“視覺動物”,對于大多數(shù)動物來說,視覺也都起到十分重要的作用。通過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機(jī)體生存具有重要意義的各種信息,通過這些信息能夠得知,周圍的世界是怎樣的,以及如何和世界交互。
而在計算機(jī)視覺出現(xiàn)之前,圖像對于計算機(jī)來說是黑盒的狀態(tài)。一張圖像對于計算機(jī)來說只是一個文件、一串?dāng)?shù)據(jù)。計算機(jī)并不知道圖片里的內(nèi)容到底是什么,只知道這張圖片是什么尺寸,占多少內(nèi)存大小,什么格式的等等。
如果計算機(jī)、人工智能想要在現(xiàn)實世界發(fā)揮重要作用,就必須看懂圖片!因此,半個世紀(jì)以來,計算機(jī)科學(xué)家一直在想辦法讓計算機(jī)也擁有視覺,從而產(chǎn)生了“計算機(jī)視覺”這個領(lǐng)域。
網(wǎng)絡(luò)的迅速發(fā)展也令計算機(jī)視覺變得尤為重要。下圖是2020年以來網(wǎng)絡(luò)上新增數(shù)據(jù)量的****圖。灰色圖形是結(jié)構(gòu)化數(shù)據(jù),藍(lán)色圖形是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖片和視頻)。可以很明顯的發(fā)現(xiàn),圖片和視頻的數(shù)量正在以指數(shù)級的速度瘋狂增長。
互聯(lián)網(wǎng)由文本和圖像組成。搜索文本相對簡單,但為了搜索圖像,算法需要知道圖像包含的內(nèi)容。在很長的一段時間內(nèi),人類沒有足夠的技術(shù)來理解圖像和視頻的內(nèi)容,只能依靠人工標(biāo)注來獲取圖像或視頻的描述。如何能讓計算機(jī)更好地理解這些圖像信息,便是當(dāng)今計算機(jī)技術(shù)面臨的一大挑戰(zhàn)。為了充分利用圖像或視頻數(shù)據(jù),需要讓計算機(jī)“查看”圖像或視頻,并理解內(nèi)容。
3
什么是計算機(jī)視覺
4
計算機(jī)視覺的基本原理
5
計算機(jī)視覺的典型任務(wù)
- 圖像分類
圖像分類是根據(jù)圖像的語義信息對不同類別圖像進(jìn)行區(qū)分,是計算機(jī)視覺的核心,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識別等其他高層次視覺任務(wù)的基礎(chǔ)。例如下圖,通過圖像分類,計算機(jī)識別到圖像中有人(person)、樹(tree)、草地(grass)、天空(sky)。
圖像分類在許多領(lǐng)域都有著廣泛的應(yīng)用,如:安防領(lǐng)域的人臉識別和智能視頻分析等,交通領(lǐng)域的交通場景識別,互聯(lián)網(wǎng)領(lǐng)域基于內(nèi)容的圖像檢索和相冊自動歸類,醫(yī)學(xué)領(lǐng)域的圖像識別等。
- 目標(biāo)檢測
目標(biāo)檢測任務(wù)的目標(biāo)是給定一張圖像或是一個視頻幀,讓計算機(jī)找出其中所有目標(biāo)的位置,并給出每個目標(biāo)的具體類別。如下圖,以識別和檢測人為例,用邊框標(biāo)記圖像中所有人的位置。
而在多類別目標(biāo)檢測中,一般使用不同顏色的邊框?qū)z測到的不同物體的位置進(jìn)行標(biāo)記,如下圖所示。
- 語義分割
語義分割是計算機(jī)視覺中的基本任務(wù),在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別。它將整個圖像分成像素組,然后對像素組進(jìn)行標(biāo)記和分類。例如,我們可能需要區(qū)分圖像中屬于汽車的所有像素,并把這些像素涂成藍(lán)色。如下圖,把圖像分為人(紅色)、樹木(深綠)、草地(淺綠)、天空(藍(lán)色)標(biāo)簽。 ·實例分割實例分割是目標(biāo)檢測和語義分割的結(jié)合,在圖像中將目標(biāo)檢測出來(目標(biāo)檢測),然后對每個像素打上標(biāo)簽(語義分割)。對比上圖、下圖可見,如以人為目標(biāo),語義分割不區(qū)分屬于相同類別的不同實例(所有人都標(biāo)為紅色),實例分割區(qū)分同類的不同實例(使用不同顏色區(qū)分不同的人)。
·目標(biāo)追蹤目標(biāo)跟蹤是指對圖像序列中的運動目標(biāo)進(jìn)行檢測、提取、識別和跟蹤,獲得運動目標(biāo)的運動參數(shù),進(jìn)行處理與分析,實現(xiàn)對運動目標(biāo)的行為理解,以完成更高一級的檢測任務(wù)。
6
計算機(jī)視覺在日常生活中的應(yīng)用場景
計算機(jī)視覺的應(yīng)用場景非常廣泛,下面列舉幾個生活中常見的應(yīng)用場景。 · 門禁、支付寶上的人臉識別
· 停車場、收費站的車牌識別
· 上傳視頻到網(wǎng)站或APP時的風(fēng)險識別
· 抖音等APP上的各種自拍道具(需要先識別出人臉的位置)
7
計算機(jī)視覺面臨的挑戰(zhàn)
8
結(jié)語
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)