運用 OpenVINO 自制自動駕駛車視覺系統(tǒng)
運用Intel OpenVINO 自制自動駕駛車視覺系統(tǒng)
這兩年人工智慧當(dāng)?shù)?,無人自動駕駛汽車技術(shù)也隨之興起,我想超過四十歲的大叔們心中最完美的自駕車莫過於1980年代電視影集「霹靂游俠」中李麥克開的那臺「伙計」了。
「伙計」擁有高度人工智慧,不但可以自動駕駛,遇到狀況也會自動閃避,還可以輕松和人對話解決各種問題,李麥克拿起手表還可呼叫「伙計」開到指定地方,簡直就是現(xiàn)代人工智慧自駕車及語音助理的最佳范本!
不過自駕車這項技術(shù)聽起來就很難,那Maker們有沒有機會自己土炮一臺呢?
#自動駕駛視覺系統(tǒng)#
說起自駕車(Autonomous Car)或是先進駕駛輔助系統(tǒng)(Advanced Driver Assistance Systems,ADAS)主要都是希望車輛在沒有人為操作下即可自動導(dǎo)航(GPS衛(wèi)星定位、路線規(guī)畫)、避障(閃避車輛、行人或異物)及環(huán)境感測(看懂燈號、路標(biāo)),同時將使用者安全地帶到目的地。目前各國爭相投入研發(fā)資源,大到無人公車、卡車、貨柜車,小到無人計程車、送貨車、電動輪椅甚至無人農(nóng)業(yè)耕耘機、采收機,就是不想錯過新一波的交通革命。
在自駕車眾多技術(shù)中最不可缺少的一項就是電腦視覺技術(shù),但要搞懂一大堆數(shù)學(xué)、人工智慧理論、程式撰寫方式、系統(tǒng)框架和硬體架構(gòu),還得懂得如何建立資料集、訓(xùn)練及優(yōu)化(加速)模型,這可就難倒大多數(shù)人了,難道就不能「快快樂樂學(xué)AI」,站在巨人的肩膀上看世界嗎?
英特爾(Intel)為了讓大家能夠快速入門,因此提出了一項免費、跨硬體(CPU、GPU、FPGA、ASIC)的開放電腦視覺推論及神經(jīng)網(wǎng)路(深度學(xué)習(xí))優(yōu)化工具包「OpenVINO」(Open Visual Inference&Neural Network Optimization Toolkit),同時提供很多預(yù)先訓(xùn)諫及優(yōu)化好的神經(jīng)網(wǎng)路模型可供大家直接使用。
影像辨識目標(biāo)
在進入主題之前,首先要先認識一下影像辨識的常見項目及定義,如下圖所示:
A.影像分類:一張影像原則上只能被分到一個類別,所以影像中最好只有一個主要物件。若影像中出現(xiàn)多個物件,那分類時則可能出現(xiàn)多個分類結(jié)果,同時會給出每個分類的不同機率,此時誤分類的可能性就會大大提昇。
B.物件定位:一張影像中可同時出現(xiàn)多個相同或不同物件,大小不據(jù),辨識後會對每個物件產(chǎn)生一個邊界框(Bounding Box),如此即可獲得較為準確的物件位置(座標(biāo))及尺寸(邊界框長寬)。
C.語義分割:是一種像素級分類,意思就是每個像素都只會被歸到某一分類,如此就可取得接近物件真實邊界(Edge)。但缺點是多個相同物件類型的像素都會被分到同一類,當(dāng)物件太靠近或部份重疊時就不易分清楚共有多少物件。
D.實例分割:這也是一種像素級的分類,和語義分割的差別是相同類型的不同物件所屬像素就會被區(qū)分成不同分類(顏色),包括物件有部份重疊時,如此就能更正確判別影像中的內(nèi)容。
影像辨識的常見項目(圖片來源)
以上視覺辨識難度依序遞增,同時在樣本訓(xùn)練及推論時間也隨之巨幅成長。在自駕車領(lǐng)域較常用到「物件定位」,比方說找出前方車輛、行人、號志位置,但當(dāng)場景較復(fù)雜(如市區(qū))時,同一影像中物件數(shù)量大增,且邊界框大量、大面積重疊,可能會影響辨識結(jié)果,因此更需要像語義分割及實例分割這類像素級分類。
不過由於實例分割的計算量大過語義分割許多,且現(xiàn)實中不需要分的如此仔細,所以大部份僅采用語義分割來偵測場景中的多種物件,比方說道路、人行道、地面標(biāo)線、背景、天空、植物、建物等等,如下圖所示:
語義分割應(yīng)用於自駕車,(a)僅道路,(b)道路、車輛、路標(biāo)等多物件辨識(圖片來源)
Intel OpenVINO簡介
玩過「電腦視覺」的朋友肯定對開源工具「OpenCV」不會陌生,這個強調(diào)不要自己造輪子的開源視覺函式庫,是英特爾(Intel)於西元2000年釋出的,不管是個人或商業(yè)用途皆可任意使用,不必付任何費用。OpenCV除了原有對Intel CPU加速函式庫IPP(Integrated Performance Primitives)、TBB(Threading Building Blocks)的支援外,發(fā)展至今已陸續(xù)整合進許多繪圖晶片(GPU)加速計算的平臺,如OpenVX、OpenCL、CUDA等。
近年來,由於深度學(xué)習(xí)大量應(yīng)用於電腦視覺,自O(shè)penCV 3.0版後就加入DNN(Deep Neural Network)模組,3.2版更是加入深度學(xué)習(xí)常用的Caffe框架及YOLO物件定位模組。2018年Intel更是推出開放(免費)電腦視覺推論及神經(jīng)網(wǎng)路(深度學(xué)習(xí))優(yōu)化工具包「OpenVINO」(Open Visual Inference&Neural Network Optimization Toolkit)。
OpenVINO整合了OpenCV、OpenVX、OpenCL等開源軟體工具并支援自家CPU、GPU、FPGA、ASIC(IPU、VPU)等硬體加速晶片,更可支援Windows、Liunx(Ubuntu、CentOS)等作業(yè)系統(tǒng),更可支援常見Caffe、TensorFlow、Mxnet、ONNX等深度學(xué)習(xí)框架所訓(xùn)練好的模型及參數(shù)。同時,兼顧傳統(tǒng)電腦視覺和深度學(xué)習(xí)計算,從此不用再糾結(jié)到底要選那一種組合來完成電腦視覺系統(tǒng)了。
INTEL OpenVINO架構(gòu)及支援硬體加速裝置(圖片來源)
OpenVINO主要是用來推論用的,特定模型的參數(shù)必須在其它框架(TensorFlow、Cafee、Mxnet)下訓(xùn)練好才可使用。OpenVINO除了可提供硬體加速外,更提供模型優(yōu)化器(Model Optimizer)功能,可協(xié)助去除已訓(xùn)練好的模型中的冗余參數(shù),并可將32bits浮點數(shù)的參數(shù)降階,以犧牲數(shù)個百分點正確率來換取推論速度提升數(shù)十倍到百倍
優(yōu)化后,產(chǎn)出二個中間表示(Intermediate Representation、IR)檔案(*.bin,*.xml),再交給推論引擎(Inference Engine)依指定的加速硬體(CPU、GPU、FPGA、ASIC)進行推論,如下圖所示:
OpenVINO模型優(yōu)化及推論引擎架構(gòu)(圖片來源)
影像語義分割原理
OpenVINO中提供了多種預(yù)訓(xùn)練及優(yōu)化好的深度學(xué)習(xí)模型,包括影像分類(AlexNet、GooLeNet、VGG、SqueezeNet、RestNet)、物件定位(SSD、Tiny YOLO)及一種類似全卷積神經(jīng)網(wǎng)路(Fully Convolutional Networks、FCN)的語義分割模型(like FCN-8s),接下來就簡單說明FCN的運作原理。
一般傳統(tǒng)用於影像分類的卷積神經(jīng)網(wǎng)路(Convolution Neural Network,CNN)是經(jīng)過多次卷積層(Convolution Layer)取出特徵圖(Feature Map)加上池化層(Pooling Layer)令影像縮小一半後,再經(jīng)過全連結(jié)層(Fully Connection Layer)產(chǎn)生不同分類的機率,最後再找出機率最高的分類當(dāng)作輸出結(jié)果(如下圖上半部)。
影像分類(CNN)與語義分割(FCN)深度學(xué)習(xí)模型概念(圖片來源)
因為全連結(jié)層把所有的空間資訊全部壓縮掉,因此無法了解到每個像素被分到那個類別。為了,能得到每個像素的分類(語義分割),Jonathan Long在2015年提出FCN論文解決了這個問題。主要方式是把全連結(jié)層也改用卷積層,產(chǎn)出和原影像尺寸相同的熱力圖(Heatmap),用以表示每個像素屬於某一類的機率有多高。
如同上圖所顯示,最後會產(chǎn)出1000千張熱力圖,接著再對1000張圖相同位置像素計算出最大機率的分類,最後將所有分類結(jié)果組成一張新的圖即為語義分割結(jié)果圖。
原始影像(image)經(jīng)多次卷積(conv)及池化(pool),到了pool5時影像尺寸已到了原尺寸的1/32,此時再經(jīng)二次卷積(conv6,conv7)後,最後將影像上采樣(Upsample)放大32倍,即可得語義分割結(jié)果圖FCN-32s(如下圖所示)。這樣的結(jié)果非常粗糙,為了得到更精細結(jié)果,可把conv7結(jié)果放大2倍加上pool4後再放大16倍,就可得到更精細的結(jié)果圖FCN-16s。
FCN不同上采樣語義分割結(jié)果(圖片來源)
同理,將高(pool3)、中(2倍pool4)、低(4倍conv7)解析度的內(nèi)容加在一起,再放大就可得到FCN-8s更高精度的語義分割圖。
雖然FCN得到的結(jié)果和真實內(nèi)容(Ground truth)分割正確度還有滿大的差距,但此方法卻是開創(chuàng)以卷積神經(jīng)網(wǎng)路達成語義分割最具代表性的算法,同時也是電腦視覺最頂級研討會CVPR 2015最佳論文。這幾年陸續(xù)有多種算法被推出,但大部份仍是仿效此種多重解析度整合方式改良而得。
OpenVINO安裝執(zhí)行
接下就開始說明如何以Intel電腦視覺推論及神經(jīng)網(wǎng)路(深度學(xué)習(xí))優(yōu)化工具包「OpenVINO」土炮自駕車的視覺系統(tǒng)。首先到OpenVINO官網(wǎng),如下圖所示,按下左上角黃色按鈕,依所需的作業(yè)系統(tǒng)(Windows,Liunx)下載工作包并依指示將開發(fā)環(huán)境(Visual Studio 2015/2017,GCC)安裝完成。
雖然官方指定要Windows 10 64bit,Intel Core 6~8代CPU才能執(zhí)行,經(jīng)實測在Windows 7 64bit/Intel Core i5 480M(i5第一代筆電用CPU)、Visual Studio 2017(含MSBuild)環(huán)境下還是可以順利編譯及執(zhí)行。
#以Windows+Visual Studio2017
組合安裝為例:
可參考官網(wǎng)提供的網(wǎng)址,預(yù)設(shè)軟體開發(fā)工具包(SDK)會安裝在C:Intel路徑下,而主要開發(fā)工具會安裝在:computer_vision_sdk_XXXX.X.XXXdeployment_tools(XXXX表示版本)
其中較重要的內(nèi)容包括以下四點:
computer_vision_algorithms
傳統(tǒng)視覺算法
inference_engine
推論引擎及相關(guān)范例程式
intel_models
預(yù)先訓(xùn)練模型
model_optimizer
模型優(yōu)化器
安裝完成後,開啟
inference_enginesamplesbuild_2017ALL_BUILD.vcxproj
經(jīng)編譯後即可在
inference_enginebinintel64Release路徑下找到所有編譯好的范例執(zhí)行檔。
接著可在
inference_enginesamplessegmentation_sample路徑下找到本次土炮自駕車的視覺系統(tǒng)所需用到的范例程式,而程式主要工作內(nèi)容包括下面步驟:
*載入推論引擎插件(Plugin)
*讀取由模型優(yōu)化產(chǎn)出的中間檔(*.xml,*.bin)
*配置輸入和輸出內(nèi)容
*載入模型給插件
*產(chǎn)生推論需求
*準備輸入
*進行推論
*處理輸出
Intel OpenVINO官網(wǎng)畫面(圖片來源)
若不想了解程式碼及工作細節(jié)的人亦可直接拿來用,只要準備好輸入的影像即可得到已做好語義分割的結(jié)果影像。目前OpenVINO提供二種預(yù)先訓(xùn)練及優(yōu)化好的語義分割模型,分別為deployment_toolsintel_models路徑下的semantic-segmentation-adas-0001(20類)和road-segmentation-adas-0001(4類)。
前者提供較多的分類包括道路、人行道、建物、墻壁、籬笆、電線桿、紅綠燈、交通號志、植物、地面、天空、行人、騎士、汽車、卡車、公車、列車、機車、自行車、自己的車頭等20類;後者僅分道路、人行道、標(biāo)線和背景共4類;單純使用CPU時,前者推論時間約為後者十倍左右。
使用時主要有兩個參數(shù),-i輸入影像名稱,-m模型名稱,指定時須包含完整路徑。另外預(yù)設(shè)是使用CPU計算,所以只接受32bit浮點數(shù)(FP32)而不接受16bit浮點數(shù)(FP16)。輸入影像尺寸不據(jù),而在20類語義分割時輸出影像尺寸為2048×1024像素,而4分類時為896×512像素。輸出檔名固定為out_0.bmp(如下圖所示)。
自駕車影像語義分割范例執(zhí)行結(jié)果(圖片來源:Jack提供)
由於CPU計算時會受作業(yè)系統(tǒng)是否忙碌影響,所以同一張影像計算每次推論時間都會有所不同。當(dāng)在Windows 7 64bit/Intel Core i5 480M 2.6GHz CPU/2GB RAM環(huán)境下測試時,20分類推論時間大約在3.7~4.3秒,4分類則在0.3~0.4秒左右,推論時間和影像內(nèi)容復(fù)雜度無關(guān)。後續(xù)若改成高階CPU或GPU後相信推論時間肯定能大幅縮短。完整執(zhí)行范例指令如下所示:
20類語義分割指令:
segmentation_sample-iC:Intelsample_picinput_image.bmp-m
C:Intelcomputer_vision_sdk_XXXX.X.XXXdeployment_toolsintel_modelssemantic-segmentation-adas-0001FP32semantic-segmentation-adas-0001.xml
4類語義分割指令:
segmentation_sample-iC:Intelsample_picinput_image.bmp-
mC:Intelcomputer_vision_sdk_XXXX.X.XXXdeployment_toolsintel_modelsroad-segmentation-adas-0001FP32road-segmentation-adas-0001.xml
OpenVINO實例應(yīng)用
接著,在網(wǎng)路上隨機收集一些道路影像,包括白天、晚上、郊區(qū)、市區(qū)、遠近鏡頭等,并用二種模型進行測試影像語義分割,其結(jié)果如下圖所示,左為原始影像,中為20分類,右為4分類。從結(jié)果來看,大致還分得還不錯,像(b)中圖汽車和卡車重疊及自身車頭,(c)的道路和人行道雖然顏色及紋理很像,都能分得很好。不過晚上的影像就有些小誤判,可能和影像過暗及物件過小影響。
自駕車影像語義分割測試結(jié)果。左為原始影像,中為20分類,右為4分類(圖片來源:Jack提供)
為了進一步了解這兩種模型對類似道路場景是否能適用,另外收集了公園步道(g)、賣場彎道(h)、客廳走道(i)、百貨公司走道(j)、候機室走道(k)進行測試(結(jié)果如下圖所示)。由測試結(jié)果來看,在20分類時(g)的天空、地面、植物、建物算是正確分辨,而紅黑磚路則被當(dāng)成人行道(淺紫色),(h)、(k)勉強能分出道路(深紫色),(i)、(j)則把道路當(dāng)成人行道(淺紫色)也勉強可以算對,(j)、(k)中的行人(暗紅色)都有正確被辨別出,但(i)的沙發(fā)則被誤判為行人和汽車(藍色)。
在4分類時(g)、(h)、(k)比較能分辨出道路(淺紫色),(h)甚至還能正確認出地面標(biāo)線(暗藍色),而(i)、(j)則是完全無法辨識,全部都被當(dāng)成背景(深紫色)。所以當(dāng)測試影像是室內(nèi)或非正常道路時,誤判率明顯提高,歸究其原因應(yīng)該是訓(xùn)練的資料集中并沒有這些類型的影像,加上室內(nèi)光滑地面有大量反光及擺放大量物件造成影響。若想應(yīng)用這些模型在室內(nèi)場景,則需要另外大量收集相關(guān)影像重新標(biāo)注後再重新訓(xùn)練,才能讓正確率有所提升。
非標(biāo)準道路影像語義分割測試結(jié)果。左為原始影像,中為20分類,右為4分類(圖片來源:Jack提供)
#小結(jié)
Intel所提供的開放(免費)電腦視覺推論及神經(jīng)網(wǎng)路(深度學(xué)習(xí))優(yōu)化工具包「OpenVINO」讓不懂電腦視覺和深度學(xué)習(xí)原理的小白可以在很短的時間上手,不必擔(dān)心如何建置開發(fā)平臺、選擇深度學(xué)習(xí)框架、訓(xùn)練及優(yōu)化模型和硬體加速等問題,只需利用預(yù)先訓(xùn)練及優(yōu)化過的語義分割模型,瞬間就可土炮出一組看起來很專業(yè)的自駕車視覺分析系統(tǒng)。
若覺得執(zhí)行效能不佳,未來還可輕松從CPU移植到GPU、FPGA甚至Maker最愛的Movidius神經(jīng)計算棒(VPU),實在讓使用者方便許多,而其它更多更方便的功能就有賴大家親自體驗一下羅!
評論