基于數(shù)據(jù)流計算圖的卷積神經(jīng)網(wǎng)絡的理論和設計
謝仁杰 (英特爾戰(zhàn)略合作和創(chuàng)新業(yè)務部?技術經(jīng)理,人工智能開放創(chuàng)新平臺聯(lián)合學者,上海?200241)
摘? 要:近年來在許多信號處理應用領域中,深度卷積神經(jīng)網(wǎng)絡引起了學術界和工業(yè)界很大的關注,其中 基于數(shù)據(jù)流圖的深度學習網(wǎng)絡Tensorflow框架得到了很多人的青睞。但在一些商業(yè)落地的研究和調查中發(fā) 現(xiàn),部分機構涉及一些自開發(fā)的計算單元,而它不被大型網(wǎng)絡框架所支持,又出于技術的保密性往往需要 自行修改工業(yè)界的深度學習框架,這就造成了以下情況, ①工業(yè)級大型代碼框架極其復雜,各大庫之間的 調用很深且一般沒有注釋,不容易讀懂和修改,②對某一個單一應用來說,工業(yè)界絕大多數(shù)的代碼都是有 冗余的,這就使得代碼整體比較臃腫(厚),性能會受點影響?;谶@種受限的情況下,本文提出了一種 基于信號處理數(shù)據(jù)流計算圖模型的方法,在多個平臺多核下實現(xiàn)車輛分類。該方法在整個使用過程中,展 現(xiàn)了靈活地設計實現(xiàn)優(yōu)化轉換能力,多平臺的兼容可實施性,可在有限的資源內根據(jù)自己的算法需求,分 立式地量身定制。在硬件電路加速或芯片的設計中,數(shù)據(jù)流所得到的高輸出率、低延時特點是各廠家在寫 RTL硬件設計語言時著重提出的特點,其次基于數(shù)據(jù)流的軟硬件設計易于算法代碼之間的轉換、實現(xiàn)、移 植、調試、分析、綜合、集成、優(yōu)化和驗證。
關鍵詞:深度學習;數(shù)據(jù)流;計算圖;多核運算;車輛分類
0 引言
隨著國家進入人工智能時代,深度學習在嵌入式 和計算機應用領域無處不在,例如汽車嵌入式系統(tǒng)和 物聯(lián)網(wǎng),從而激發(fā)了在資源受限的邊緣端做深度卷積 神經(jīng)網(wǎng)絡的設計方法和研究。本文中以車輛分類作為 具體研究案例,設計一種基于信號處理的數(shù)據(jù)流計算 圖的模型框架和實現(xiàn)優(yōu)化方法,迭代式的實現(xiàn),實驗 及優(yōu)化,并在不同的平臺及有限的計算資源下實現(xiàn)針 對四種相近車輛的分類。本文以數(shù)據(jù)流計算圖原理出 發(fā),介紹不同數(shù)據(jù)流技術建模的原理和形式,后舉一 個從零開始基于車輛分類的例子,從訓練某個應用的網(wǎng)絡,選取網(wǎng)絡參數(shù)和神經(jīng)元權重開始,進行Matlab 的仿真代碼實現(xiàn),并以此為參考代碼進行基于數(shù)據(jù) 流計算圖C代碼實現(xiàn),隨后對整個計算圖進行深度優(yōu) 化,最后單核和多核在不同平臺下的性能進行了一一 對比。數(shù)據(jù)流計算圖的簡潔,跨平臺,可擴展的完全 自主的特性,可用于任何特定領域,特別適合量身定 制的的嵌入圖像和視頻信號的操作。
1 數(shù)據(jù)流模型 (Dataflow Modeling)
1.1 數(shù)據(jù)流模型原理
在數(shù)據(jù)流建模模型中,數(shù)據(jù)流圖可表示為有向圖,由一系列Actors(頂點)和edges(前進先出, FIFO)組成,其中actor表示任意復雜程度的計算單元 (可以是高節(jié)點的actor封裝了一些計算圖),edge表 示連接各actors的連線,從而構成一組計算圖,代表 一個函數(shù)功能系統(tǒng),數(shù)據(jù)類型則封裝在token,在一 個actor通過 edge輸出至另一個actor輸入端。數(shù)據(jù)流邊 緣可以表示e =(v1; v2),表示數(shù)據(jù)從v1到v2。這里 src(e)表示的v1稱為源actor,sink(e)表示的v2稱 為接收器。在一個數(shù)據(jù)流計算圖中,一個actor在其接 受的數(shù)據(jù)足以計算該單元actor的算法時可以啟動和調 用該actor通過其enable和invoke函數(shù), 每個actor需要明 確定義其輸入口消耗和輸出口產生的 token的數(shù)量。 整個數(shù)據(jù)流計算圖運行是一個離散的操作。在圖1 中,Actor: FS1,F(xiàn)S2是2個源的參與者;Actor: Adder 是加法操作; Actor: FK是接收器。整個圖表產生每個 actor觸發(fā)(消耗)一個token到每個actor輸出(輸入) 端口上。
1.2 數(shù)據(jù)流模型概述
Core Functional Dataflow(CFDF)是一種可編程 的模型,常用于設計、分析及實現(xiàn)信號處理系統(tǒng),尤 其是一種確定消耗產出比和有著動態(tài)數(shù)據(jù)流比例的 的信號處理單元的系統(tǒng)開發(fā);Synchronous Dataflow (SDF)是最簡單最流行的數(shù)據(jù)流模型,它有個限 制,即一個actor在每個傳出邊緣上產生的數(shù)據(jù)值是個 數(shù)字常量,同時actor從進入邊緣消耗的數(shù)據(jù)值的數(shù)量 也需要是常量;Cyclo - Static Dataflow (CSDF) 是一 種類型的SDF,在一個 actor產生和消耗的token比是可變的,只要這個變值是一個固定的周期性的模式; Parameterized Dataflow (PDF) 是一種結合動態(tài)參數(shù)與 運行參數(shù)化的數(shù)據(jù)流計算圖,尤其是那些有很明確的 圖迭代概念的圖形;Boolean Dataflow (BDF) 是SDF的 擴展,其中一個actor產生和消耗的吞吐率取決于控制 的二值函數(shù)token,它源自于動態(tài)數(shù)據(jù)流actor中的一個 指定控制端口;Enable - Invoke Dataflow (EIDF)是另 一種動態(tài)數(shù)據(jù)流建模技術。它將actors分成一系列模 式,每個模式都有一個固定的消耗和生成的token 的 數(shù)量,代表一個分支可以在運行時切換多種模式。
1.3 數(shù)據(jù)流模型環(huán)境: Lightweight Dataflow Environment – C (LIDE-C)
LIDE-C(輕量級數(shù)據(jù)流環(huán)境C)是一個靈活設 計的C語言的編程環(huán)境,允許設計人員挖掘基于數(shù)據(jù) 流的技術信號處理系統(tǒng)的設計實現(xiàn)和優(yōu)化,專注于 基本的應用程序編程接口(API)功能。在整個框架 提供廣泛的實現(xiàn)信號處理系統(tǒng)功能的組件,以及跨 平臺操作,包括可編程門陣列(FPGA),圖形處理 單元(GPU),可編程數(shù)字信號處理器(DSP)和服 務器工作站。LIDE-C軟件包擁有許多數(shù)據(jù)流圖元素 (actor和edge)實現(xiàn)庫,基于這些基本要素可以自由 設計自己的數(shù)據(jù)流圖并定義元素,開發(fā)特定的應用程 序(例如,控制,參數(shù)化和儀器相關的模塊),和觸 發(fā)整個數(shù)據(jù)流圖的調度程序,詳解可參考文章[1]。在 LIDE-C數(shù)據(jù)流計算圖種actor和edge是關鍵2元素,其 中Actor設計包括四個接口函數(shù):構造,啟動,調用和 種植函數(shù)(圖2)。
1)構造函數(shù):創(chuàng)建actor的實例并連接端口,通過函數(shù)參數(shù)列表進行算法處理后傳遞給相連的一 組邊。
2)啟用功能:在運行時檢查該actor是否有足夠 的輸入數(shù)據(jù)和空的緩沖區(qū)空間來支持下一次調用。
3)調用函數(shù):為actor執(zhí)行單次調用。
4)終止功能:關閉此actor在計算圖的作用,包 括釋放相關的存儲對象及其所占用的資源。
LIDE-C中的FIFO設計構成的數(shù)據(jù)流圖與其actors 本身相互獨立實現(xiàn)和優(yōu)化,開發(fā)者可專注于Actor的設 計(如算法的實現(xiàn)和優(yōu)化),然后通過明確定義的接 口和fifos集成這些actors, 從而進行數(shù)據(jù)流圖的調度 優(yōu)化(并行,優(yōu)先級), 這些可通過相互溝通實現(xiàn)整 個性能的表現(xiàn)。FIFO操作由C中的 接口函數(shù)封裝。函數(shù)指針是指向這 些接口功能,以不同形式實現(xiàn)不同 的接口。LIDE-C中的標準FIFO有 以下執(zhí)行操作:
創(chuàng)建具有特定容量的新FIFO。
從/向一個fifo讀取和寫入 token。
檢查FIFO的容量。
檢查FIFO中當前的token數(shù)。
使用FIFO完成后,用FIFO解除 存儲。
在一個數(shù)據(jù)流計算圖應用程序 中創(chuàng)建所有actors和fifos之后,逐步 連接并逐步觸發(fā)檢查圖形下一個關 鍵actor,從而驗證檢查調試整個系 統(tǒng)的當前使用情況。
2 基于圖像的車輛識別的網(wǎng)絡架構
本文以基于圖像的車輛識別網(wǎng) 絡系統(tǒng),從零開始一步一步得到相 應的網(wǎng)絡,實現(xiàn)參考的Matlab推理網(wǎng)絡代碼,從而進 一步實現(xiàn)優(yōu)化基于數(shù)據(jù)流計算圖的C代碼實現(xiàn),此方 法具有一定的普適性和擴展性,且根據(jù)不同的需求可量身定制其它的應用需求。案例中的CNN實現(xiàn)四種 車輛之間的分類——公共汽車,卡車,面包車和汽 車,此源數(shù)據(jù)和工作基于之前的車輛分類工作[3],提 取了相關的有用信息,使用Caffe + Python 隨機搜索 來最優(yōu)的超參數(shù)。在使用50組隨機生成的超參數(shù)(圖 3)進行一系列搜索迭代之后,針對精確率和參數(shù)大 小及性能的特征平衡,推導出一套可實施的優(yōu)化過的 超參數(shù)車輛分類系統(tǒng), 等到訓練模型穩(wěn)定后,提取相 關的模型權重圖4(注:本文目的是演示實現(xiàn)優(yōu)化數(shù) 據(jù)流計算圖的方法,所選取的類型為double型,讀者 可根據(jù)深度學習相關知識,可相應地調整網(wǎng)絡,例 如用全卷積網(wǎng)絡或半精度數(shù)據(jù)類型或者8比特的整數(shù)類型)。
訓練好后得到的超參數(shù)所形成的CNN架構(見圖 4)由五層組成——兩個卷積層,兩個全連接層,最后是分類器層。第一層包括三個通道 (紅綠藍RGB通 道),每個輸入圖像96 x 96的三通道經(jīng)過過濾后分解 成32個特征圖,然后最大值池化為48×48。在第二層 中,有32組特征圖再次卷積,然后下采樣最大值池化 到24×24。第三層和第四層是兩層全連接層,每個節(jié) 點有100個節(jié)點。分類器層執(zhí)行從100個元素到4個元 素并通過softmax運算符得到4個等級可能概率值。在 層于層相鄰之間,應用整流線性單元非線性激活函數(shù) (ReLU)。
3 基于數(shù)據(jù)流的網(wǎng)絡架構計算圖設計
在得到整個網(wǎng)絡拓撲圖(圖5)并提取出網(wǎng)絡各 個神經(jīng)元的權重(圖4)后,先在Matlab環(huán)境中實現(xiàn)其 CNN 推理的圖像分類代碼,其主要目的其一是確保此 參數(shù)模型的最后效果,性能和準確性,其二是有一個 參考代碼并可收集每一層運算后的數(shù)值,便于后續(xù)數(shù) 據(jù)流計算圖C代碼的實現(xiàn)、比較、調試和優(yōu)化,這種 逐層式至最后龐大系統(tǒng)的檢測有益于整體代碼實現(xiàn)的 魯棒性,并將可能的測試失敗的原因顯示化在具體的 某一層某個actor或fifo,進行更好更快速的實現(xiàn)代碼設 計優(yōu)化和迭代。
在開發(fā)了基于Matlab的CNN車輛分類系統(tǒng)的仿真 參考模型后(圖6和圖7),我們繼續(xù)開發(fā)基于數(shù)據(jù)流計算圖LIDE-C的設計以及實現(xiàn),并在多平臺多核上 進行性能測試,通過迭代式優(yōu)化數(shù)據(jù)流計算圖及actor 算法來提高整體性能。
作為數(shù)據(jù)流模型的第一步,把CNN網(wǎng)絡拓圖轉 換了網(wǎng)絡框圖(圖8),每個框圖都可以看成帶參數(shù) 的高階actor, 高階actor可以封裝一個或多個帶參數(shù) subgraph系統(tǒng)子圖,而其中可能存在成千上萬的actor 互連,其形式類似于硬件模塊的實現(xiàn),所以可以進行 很好的軟硬件結合,此網(wǎng)絡包含了共10種不同類型 的actor:讀通道actor,寫通道actor,卷積actor,池化actor, 非線性激活函數(shù)actor,分類器actor, 聚合actor, 廣播actor,乘加 actor,矩陣乘 法actor。針對這些actors,按照不同的圖結 構進行封裝設計,形成三種不同的數(shù)據(jù)流 計算圖(圖9,圖10,圖11)。
設計一的優(yōu)點是整個架構與框圖最接 近,且非常的清晰,易于理解和實現(xiàn),驗 證和檢查整個數(shù)據(jù)流計算圖很直接方便。 缺點是當子圖已經(jīng)確定且封裝為一個大的 actor后,難以進一步深層次地優(yōu)化,若子 圖來自于第三方機構,當整個程序有錯誤 時,很難進行調試;設計二相對簡潔,在 卷積層用到了循環(huán)展開(loop unrolling)和 流水線(pipeline)技術進行優(yōu)化,增加延遲 但提高輸出量。此方法很適合用于網(wǎng)絡訓 練圖結構,但需要一些技巧,總體來說, 整個計算圖仍舊可以理解;設計三的優(yōu)點 是整個數(shù)據(jù)流計算圖可以任意地在某一 步、某一個actor或fifo或緩沖區(qū)里跟蹤,控 制,管理,驗證,檢測數(shù)據(jù),除此之外, 設計三的顆粒度更細,可以更深層次進行 優(yōu)化,自行控制的選擇余地比較多,相 反的,缺點是不易于理解,構成,實現(xiàn), 優(yōu)化這顆粒度細且龐大復雜的數(shù)據(jù)流計 算圖。
參考文獻:
[1] SHEN C,PLISHKER W,WU H,et al.A lightweight dataflow approach for design and implementation of SDR systems[C]. Proceedings of the Wireless Innovation Conference and Product Exposition,Washington DC, USA, November, 2010:640–645.
[2] BHATTACHARYYA S S,PLISHKER W,SHEN C,et al.The DSPCAD integrative command line environment: Introduction to DICE version 1.1.Institute for Advanced Computer Studies, University of Maryland at College Park, Tech. Rep. UMIACSTR-2011-10, 2011.
[3] HUTTUNEN H,YANCHESHMEH F, CHENK.Car type recognition with deep neural networks[C].ArXiv e-prints, February 2016, submitted to IEEE Intelligent Vehicles Symposium 2016.
[4] BOUTELLIER J,LUNNIKIVI H.Design Flow for Portable Dataflow Programming of Heterogeneous Platforms[C].2018 Conference on Design and Architectures for Signal and Image Processing (DASIP):106-111.
[5] Representative Projects of the Maryland DSPCAD Research Group[EB/OL]. https://ece.umd.edu/DSPCAD/ projects/toplevel/projects.htm.
本文來源于科技期刊《電子產品世界》2020年第03期第22頁,歡迎您寫論文時引用,并注明出處。
評論