基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法研究
摘 要: 無(wú)人機(jī)的廣泛運(yùn)用,在給人們帶來(lái)便利的同時(shí),也引發(fā)了不良影響。比如,無(wú)人機(jī)飛入禁飛區(qū)引發(fā)安全問(wèn)題,由于不正當(dāng)?shù)氖褂们址腹竦碾[私等,因此需要構(gòu)建一個(gè)無(wú)人機(jī)警察系統(tǒng),對(duì)無(wú)人機(jī)實(shí)施監(jiān)控,遏制亂飛現(xiàn)象。采用傳統(tǒng)的識(shí)別方法,靈活性不足,精度也不夠高。為此提出一種基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法,通過(guò)訓(xùn)練一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的學(xué)習(xí)網(wǎng)絡(luò),得出一個(gè)高效的識(shí)別模型,實(shí)現(xiàn)無(wú)人機(jī)和非無(wú)人機(jī)間的分類。模型的測(cè)試結(jié)果表明,該方法具有較高的識(shí)別率。
本文引用地址:http://cafeforensic.com/article/201708/363317.htm關(guān)鍵詞: 深度學(xué)習(xí);無(wú)人機(jī);視覺(jué)傳感網(wǎng);特征提取
中圖分類號(hào): TN91
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.022
中文引用格式: 蔣兆軍,成孝剛,彭雅琴,等. 基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別算法研究[J].電子技術(shù)應(yīng)用,2017,43(7):84-87.
英文引用格式: Jiang Zhaojun,Cheng Xiaogang,Peng Yaqin,et al. A novel UAV recognition algorithm based on deep learning approach[J].Application of Electronic Technique,2017,43(7):84-87.
0 引言
無(wú)人機(jī)技術(shù)的發(fā)展十分迅速。從美軍無(wú)人機(jī)的使用,到現(xiàn)在無(wú)人機(jī)在研究、民用等多方面的普及,無(wú)人機(jī)已成為一種新的潮流[1-2]。隨之而來(lái)也帶來(lái)很多新問(wèn)題,此前無(wú)人機(jī)險(xiǎn)撞戰(zhàn)機(jī)事件的發(fā)生,就給人們敲響了警鐘。因此,無(wú)人機(jī)警察系統(tǒng)的搭建勢(shì)在必行。本文的研究重點(diǎn)為:建立視覺(jué)傳感網(wǎng),用于無(wú)人機(jī)的圖像捕捉和信息存儲(chǔ);引入深度學(xué)習(xí)對(duì)無(wú)人機(jī)進(jìn)行識(shí)別,及時(shí)發(fā)現(xiàn)“黑飛無(wú)人機(jī)”,并采取相應(yīng)報(bào)警措施,實(shí)現(xiàn)對(duì)無(wú)人機(jī)的全面監(jiān)管。
1 視覺(jué)傳感網(wǎng)
整個(gè)視覺(jué)傳感網(wǎng)(Visual Sensor Networks,VSNs)由多個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)都將由攝像機(jī)陣列構(gòu)成,這將作為整個(gè)系統(tǒng)的基礎(chǔ)部分[3],如圖1。
城市環(huán)境下一個(gè)節(jié)點(diǎn)的安置示意圖如圖2。
為了減輕對(duì)居民的干擾,可以修改攝像機(jī)焦距參數(shù),從而限制攝像機(jī)的拍攝范圍。通過(guò)多臺(tái)攝像機(jī)交叉覆蓋,成功地將中間的空地區(qū)域全方位地納入監(jiān)控之中。
考慮到多節(jié)點(diǎn)所提供的龐大數(shù)據(jù)量以及優(yōu)化控制結(jié)構(gòu)的需要,將數(shù)據(jù)網(wǎng)絡(luò)設(shè)計(jì)成三層結(jié)構(gòu)。位于最底層的第三層由數(shù)量不等的節(jié)點(diǎn)構(gòu)成一系列簇組成,每個(gè)簇內(nèi)的節(jié)點(diǎn)統(tǒng)一將數(shù)據(jù)發(fā)往一臺(tái)次級(jí)處理服務(wù)器。整個(gè)網(wǎng)絡(luò)內(nèi)的次級(jí)處理服務(wù)器構(gòu)成網(wǎng)絡(luò)的第二層,將數(shù)據(jù)送往位于第一層的中央高級(jí)服務(wù)器。
2 基于深度學(xué)習(xí)的圖像識(shí)別中心
無(wú)人機(jī)警察系統(tǒng)中關(guān)鍵組成是圖像識(shí)別中心,其任務(wù)是將視覺(jué)傳感網(wǎng)中的圖像信息進(jìn)行分析和處理,從圖像中識(shí)別出無(wú)人機(jī),從而實(shí)現(xiàn)對(duì)無(wú)人機(jī)的監(jiān)控,屬于目標(biāo)識(shí)別領(lǐng)域。目前這一領(lǐng)域已經(jīng)有了大量的優(yōu)秀成果出現(xiàn)。最常見(jiàn)有行人檢測(cè)問(wèn)題,可用的特征包括:Haar、HOG、CSS、LBP等多種,這些特征表達(dá)了人體的各個(gè)重要部分,并且充分考慮了遮擋等情形。王曉剛和歐陽(yáng)萬(wàn)里更提出了基于深度學(xué)習(xí)的行人檢測(cè)手段,通過(guò)聯(lián)合學(xué)習(xí)行人檢測(cè)中的4個(gè)重要組成部分——特征提取、人體部件形變處理、遮擋處理和分類,最大化了各自的作用[4]。他們?cè)趥鹘y(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入了形變處理層,最終習(xí)得的特征具有很強(qiáng)的判別力,優(yōu)于HOG等特征。王曉剛團(tuán)隊(duì)的方案,是深度學(xué)習(xí)在目標(biāo)識(shí)別領(lǐng)域的成功應(yīng)用,給本文的研究提供了研究參考。再比如人臉識(shí)別問(wèn)題[5-6],則具有更復(fù)雜的變化,因?yàn)槿四樖芊N族、膚色、表情、情緒、光照環(huán)境、物體遮擋等眾多因素的影響。推廣到各種特定物體的識(shí)別乃至場(chǎng)景識(shí)別、深度學(xué)習(xí)也有很多方案[7]。由于無(wú)人機(jī)警察系統(tǒng)中圖片信息量豐富,且無(wú)人機(jī)的飛行狀態(tài)多樣,因此識(shí)別難度較大。為此,本文將引入深度學(xué)習(xí)算法,并以卷積神經(jīng)網(wǎng)絡(luò)作為圖像識(shí)別中心。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2006年,Hinton等人首次提出深度學(xué)習(xí)的概念[8],并開(kāi)啟了深度學(xué)習(xí)的研究浪潮,其認(rèn)為:多隱層的人工神經(jīng)網(wǎng)絡(luò)能夠更好地模擬人腦的思考過(guò)程,具有更加優(yōu)異的學(xué)習(xí)能力,能夠?qū)?shù)據(jù)進(jìn)行更本質(zhì)的刻畫(huà),從而提高可視化或者分類的能力。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法,其在圖像識(shí)別領(lǐng)域優(yōu)勢(shì)明顯。它利用感受野、局部連接等概念極大地減少了參數(shù)量,降低了網(wǎng)絡(luò)模型的復(fù)雜度,提高了訓(xùn)練效率,且網(wǎng)絡(luò)對(duì)于平移、縮放的各種變形都具備高度不變性。
卷積神經(jīng)網(wǎng)絡(luò)屬于前饋多層神經(jīng)網(wǎng)絡(luò)的一種,每層由多個(gè)二維平面組成,多個(gè)神經(jīng)元組成了每個(gè)平面,其結(jié)構(gòu)如圖3所示。
卷積神經(jīng)網(wǎng)絡(luò)利用了一系列的卷積層,降采樣層構(gòu)建了多層網(wǎng)絡(luò),來(lái)模擬人腦感知視覺(jué)信號(hào)的逐層處理機(jī)制,從而提取圖像的多層次特征。
通過(guò)加入卷積層,可以實(shí)現(xiàn)局部連接網(wǎng)絡(luò),有效減少了需要訓(xùn)練的網(wǎng)絡(luò)參數(shù)。例如,對(duì)一張大的圖片輸入,其尺寸為r×c,隨機(jī)采樣為a×b的小圖片,如果隱含節(jié)點(diǎn)為k個(gè),那么最終學(xué)習(xí)到的特征數(shù)為:
池化層是為了解決網(wǎng)絡(luò)輸出維數(shù)過(guò)大、造成分類器難以設(shè)計(jì)的問(wèn)題。同樣是根據(jù)統(tǒng)計(jì)結(jié)果的相似性原理,池化操作對(duì)卷積得到的結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算,減少了需要訓(xùn)練的系統(tǒng)參數(shù)。
權(quán)值更新采用BP反向傳播算法。反向傳播的誤差可看做每個(gè)神經(jīng)元的基的靈敏度(即誤差E對(duì)基b變化率的偏導(dǎo)函數(shù)),然后利用以下關(guān)系式:
最后的分類應(yīng)用了Logistic Regression擴(kuò)展的一種多分類器:Softmax Regression。其系統(tǒng)方程及系統(tǒng)損失函數(shù)分別為:
2.2 基于深度學(xué)習(xí)的無(wú)人機(jī)識(shí)別流程
由于視覺(jué)傳感網(wǎng)獲得的一系列圖像中,關(guān)注的對(duì)象可能只占其中的一小部分像素區(qū)域,又由于對(duì)象具有運(yùn)動(dòng)性,故在識(shí)別中心操作之前將采取幀差法提取感興趣的對(duì)象,作為算法的正式輸入[10-11]。二幀差法基本原理如下:
其中i(t)、i(t-1)分別為t、t-1時(shí)刻對(duì)應(yīng)像素點(diǎn)的像素值,T為閾值。
基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)識(shí)別流程如下所示。
步驟一:數(shù)據(jù)預(yù)處理
(1)幀差法提取目標(biāo)區(qū)域;
(2)數(shù)據(jù)格式轉(zhuǎn)換;
(3)預(yù)定義標(biāo)簽;
步驟二:深度網(wǎng)絡(luò)訓(xùn)練、測(cè)試
(1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),確定網(wǎng)絡(luò)層次結(jié)構(gòu)和權(quán)重參數(shù)等;
(2)數(shù)據(jù)依次進(jìn)入卷積層、池化層、全連接層,進(jìn)行計(jì)算;
(3)采用Backpropagation Pass反向傳播,進(jìn)行參數(shù)調(diào)整;
(4)當(dāng)誤差滿足或者迭代次數(shù)滿足時(shí),網(wǎng)絡(luò)停止訓(xùn)練,進(jìn)入Accuracy層計(jì)算準(zhǔn)確率并輸出(只在測(cè)試階段執(zhí)行,訓(xùn)練時(shí)不執(zhí)行)。
3 識(shí)別性能與結(jié)果分析
首先構(gòu)建了視覺(jué)傳感網(wǎng),設(shè)置了2個(gè)節(jié)點(diǎn),目前系統(tǒng)僅限于白天工作。
輸入2 848張圖片進(jìn)行訓(xùn)練,基礎(chǔ)學(xué)習(xí)率設(shè)置為0.001,迭代5 000次后獲得的模型用于之后的測(cè)試分析。測(cè)試時(shí)輸入712張圖片,模型正確分類的情形共有634例,可得:
由于目前無(wú)人機(jī)識(shí)別方面沒(méi)有其他現(xiàn)成的模型可供比較,因此本文分析了ROC曲線參數(shù)。在信號(hào)檢測(cè)理論中,接收者操作特征(Receiver Operating Characteristic,ROC)是一種對(duì)靈敏度進(jìn)行描述的功能圖像,該圖像稱為ROC曲線。應(yīng)用ROC曲線來(lái)表示分類器的性能非常直觀。同時(shí)為了定量且簡(jiǎn)潔地表達(dá)這種性能,Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲線正下方的面積,AUC的數(shù)值越大,分類器的性能越好。圖4表示的是與ROC曲線繪制相關(guān)的一些量,依次為TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)。
在隨機(jī)分類模型,對(duì)于任一樣本輸入,模型對(duì)其的預(yù)測(cè)score是完全隨機(jī)的,假設(shè)預(yù)測(cè)score落在區(qū)間[0,1]上,則預(yù)測(cè)概率數(shù)學(xué)表達(dá)為:
因此本文的ROC曲線圖結(jié)果如圖5所示。圖中整個(gè)曲線越向點(diǎn)(0,1)逼近,模型的性能就越好。
4 結(jié)論
本文較好地將深度學(xué)習(xí)的方法應(yīng)用到了無(wú)人機(jī)警察系統(tǒng)這個(gè)新穎的概念上,對(duì)無(wú)人機(jī)的識(shí)別率比較高。在網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上,可能存在冗余,導(dǎo)致模型收斂速度不夠快,訓(xùn)練效率有所損失。后期將繼續(xù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)行研究,希望能夠進(jìn)一步提高模型的質(zhì)量,并使其具有更廣的適應(yīng)性。
參考文獻(xiàn)
[1] 閆玉巧.面向無(wú)人機(jī)的自動(dòng)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2011.
[2] 胡占雙.無(wú)人機(jī)飛行姿態(tài)檢測(cè)及控制研究[D].沈陽(yáng):沈陽(yáng)航空航天大學(xué),2013.
[3] AHMAD N.Modelling and optimization of sky surveillance visual sensor network[D].Mid Sweden University,2012.
[4] OuYang Wanli,Wang Xiaogang.Joint deep learning for pedestrian detection[C].ICCV,2013.
[5] Li Ming,Yu Chengyang,Nian Fuzhong,et al.A face detection algorithm based on deep learning[C].IJHIT,2015.
[6] Nagpal Shruti,Singh Maneet,Singh Richa,et al.Regularized deep learning for face recognition with weight variations[J].IEEE Access,2015,3:3010-3018.
[7] Yuan Yuan,Mou Lichao,Lu Xiaoqiang.Scene recognition by manifold regularized deep learning architecture[J].IEEE Transactions on Networks & learning,2015,16(10):2222.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.
[9] SAXE A M,KOH P W.On random weights and unsupervised feature learing[C].International Conference on Machine Learing,2011:1089-1096.
[10] 王鑫.檢測(cè)不規(guī)則圖形的改進(jìn)廣義Hough變換[D].北京:首都師范大學(xué),2012.
[11] 唐俐勒.視頻監(jiān)控中運(yùn)動(dòng)圖像檢測(cè)與測(cè)距技術(shù)的研究[D].西安:西安科技大學(xué),2010.
評(píng)論