色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<ins id="ivg2o"><thead id="ivg2o"></thead></ins>

新聞中心

EEPW首頁 > 設計應用 > 基于數(shù)據(jù)流計算圖的卷積神經(jīng)網(wǎng)絡的理論和設計

基于數(shù)據(jù)流計算圖的卷積神經(jīng)網(wǎng)絡的理論和設計

作者：謝仁杰時間：2020-03-03 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

謝仁杰（英特爾戰(zhàn)略合作和創(chuàng)新業(yè)務部?技術經(jīng)理，人工智能開放創(chuàng)新平臺聯(lián)合學者，上海?200241）

本文引用地址：http://cafeforensic.com/article/202003/410481.htm

摘? 要：近年來在許多信號處理應用領域中，深度卷積神經(jīng)網(wǎng)絡引起了學術界和工業(yè)界很大的關注，其中基于數(shù)據(jù)流圖的深度學習網(wǎng)絡Tensorflow框架得到了很多人的青睞。但在一些商業(yè)落地的研究和調查中發(fā) 現(xiàn)，部分機構涉及一些自開發(fā)的計算單元，而它不被大型網(wǎng)絡框架所支持，又出于技術的保密性往往需要自行修改工業(yè)界的深度學習框架，這就造成了以下情況， ①工業(yè)級大型代碼框架極其復雜，各大庫之間的調用很深且一般沒有注釋，不容易讀懂和修改，②對某一個單一應用來說，工業(yè)界絕大多數(shù)的代碼都是有冗余的，這就使得代碼整體比較臃腫（厚），性能會受點影響?；谶@種受限的情況下，本文提出了一種基于信號處理數(shù)據(jù)流計算圖模型的方法，在多個平臺多核下實現(xiàn)車輛分類。該方法在整個使用過程中，展現(xiàn)了靈活地設計實現(xiàn)優(yōu)化轉換能力，多平臺的兼容可實施性，可在有限的資源內根據(jù)自己的算法需求，分立式地量身定制。在硬件電路加速或芯片的設計中，數(shù)據(jù)流所得到的高輸出率、低延時特點是各廠家在寫 RTL硬件設計語言時著重提出的特點，其次基于數(shù)據(jù)流的軟硬件設計易于算法代碼之間的轉換、實現(xiàn)、移植、調試、分析、綜合、集成、優(yōu)化和驗證。

關鍵詞：深度學習；數(shù)據(jù)流；計算圖；多核運算；車輛分類

0 引言

隨著國家進入人工智能時代，深度學習在嵌入式和計算機應用領域無處不在，例如汽車嵌入式系統(tǒng)和物聯(lián)網(wǎng)，從而激發(fā)了在資源受限的邊緣端做深度卷積神經(jīng)網(wǎng)絡的設計方法和研究。本文中以車輛分類作為具體研究案例，設計一種基于信號處理的數(shù)據(jù)流計算圖的模型框架和實現(xiàn)優(yōu)化方法，迭代式的實現(xiàn)，實驗及優(yōu)化，并在不同的平臺及有限的計算資源下實現(xiàn)針對四種相近車輛的分類。本文以數(shù)據(jù)流計算圖原理出發(fā)，介紹不同數(shù)據(jù)流技術建模的原理和形式，后舉一個從零開始基于車輛分類的例子，從訓練某個應用的網(wǎng)絡，選取網(wǎng)絡參數(shù)和神經(jīng)元權重開始，進行Matlab 的仿真代碼實現(xiàn)，并以此為參考代碼進行基于數(shù)據(jù) 流計算圖C代碼實現(xiàn)，隨后對整個計算圖進行深度優(yōu) 化，最后單核和多核在不同平臺下的性能進行了一一對比。數(shù)據(jù)流計算圖的簡潔，跨平臺，可擴展的完全自主的特性，可用于任何特定領域，特別適合量身定制的的嵌入圖像和視頻信號的操作。

1 數(shù)據(jù)流模型 (Dataflow Modeling)

1.1 數(shù)據(jù)流模型原理

在數(shù)據(jù)流建模模型中，數(shù)據(jù)流圖可表示為有向圖，由一系列Actors（頂點）和edges（前進先出， FIFO）組成，其中actor表示任意復雜程度的計算單元（可以是高節(jié)點的actor封裝了一些計算圖），edge表示連接各actors的連線，從而構成一組計算圖，代表一個函數(shù)功能系統(tǒng)，數(shù)據(jù)類型則封裝在token，在一個actor通過 edge輸出至另一個actor輸入端。數(shù)據(jù)流邊緣可以表示e =（v1; v2），表示數(shù)據(jù)從v1到v2。這里 src（e）表示的v1稱為源actor，sink（e）表示的v2稱為接收器。在一個數(shù)據(jù)流計算圖中，一個actor在其接受的數(shù)據(jù)足以計算該單元actor的算法時可以啟動和調用該actor通過其enable和invoke函數(shù), 每個actor需要明確定義其輸入口消耗和輸出口產生的 token的數(shù)量。整個數(shù)據(jù)流計算圖運行是一個離散的操作。在圖1 中，Actor: FS1，F(xiàn)S2是2個源的參與者；Actor: Adder 是加法操作; Actor: FK是接收器。整個圖表產生每個 actor觸發(fā)（消耗）一個token到每個actor輸出（輸入）端口上。

微信截圖_20200306104403.png

1.2 數(shù)據(jù)流模型概述

Core Functional Dataflow（CFDF）是一種可編程的模型，常用于設計、分析及實現(xiàn)信號處理系統(tǒng)，尤其是一種確定消耗產出比和有著動態(tài)數(shù)據(jù)流比例的的信號處理單元的系統(tǒng)開發(fā)；Synchronous Dataflow （SDF）是最簡單最流行的數(shù)據(jù)流模型，它有個限制，即一個actor在每個傳出邊緣上產生的數(shù)據(jù)值是個數(shù)字常量，同時actor從進入邊緣消耗的數(shù)據(jù)值的數(shù)量也需要是常量；Cyclo - Static Dataflow (CSDF) 是一種類型的SDF，在一個 actor產生和消耗的token比是可變的，只要這個變值是一個固定的周期性的模式； Parameterized Dataflow (PDF) 是一種結合動態(tài)參數(shù)與運行參數(shù)化的數(shù)據(jù)流計算圖，尤其是那些有很明確的圖迭代概念的圖形；Boolean Dataflow (BDF) 是SDF的擴展，其中一個actor產生和消耗的吞吐率取決于控制的二值函數(shù)token，它源自于動態(tài)數(shù)據(jù)流actor中的一個指定控制端口；Enable - Invoke Dataflow (EIDF)是另一種動態(tài)數(shù)據(jù)流建模技術。它將actors分成一系列模式，每個模式都有一個固定的消耗和生成的token 的數(shù)量，代表一個分支可以在運行時切換多種模式。

1.3 數(shù)據(jù)流模型環(huán)境： Lightweight Dataflow Environment – C (LIDE-C)

LIDE-C（輕量級數(shù)據(jù)流環(huán)境C）是一個靈活設計的C語言的編程環(huán)境，允許設計人員挖掘基于數(shù)據(jù) 流的技術信號處理系統(tǒng)的設計實現(xiàn)和優(yōu)化，專注于基本的應用程序編程接口（API）功能。在整個框架提供廣泛的實現(xiàn)信號處理系統(tǒng)功能的組件，以及跨平臺操作，包括可編程門陣列（FPGA），圖形處理單元（GPU），可編程數(shù)字信號處理器（DSP）和服務器工作站。LIDE-C軟件包擁有許多數(shù)據(jù)流圖元素（actor和edge）實現(xiàn)庫，基于這些基本要素可以自由設計自己的數(shù)據(jù)流圖并定義元素，開發(fā)特定的應用程序（例如，控制，參數(shù)化和儀器相關的模塊），和觸發(fā)整個數(shù)據(jù)流圖的調度程序，詳解可參考文章^[1]。在 LIDE-C數(shù)據(jù)流計算圖種actor和edge是關鍵2元素，其中Actor設計包括四個接口函數(shù)：構造，啟動，調用和種植函數(shù)（圖2）。

微信截圖_20200306104431.png

1）構造函數(shù)：創(chuàng)建actor的實例并連接端口，通過函數(shù)參數(shù)列表進行算法處理后傳遞給相連的一組邊。

2）啟用功能：在運行時檢查該actor是否有足夠的輸入數(shù)據(jù)和空的緩沖區(qū)空間來支持下一次調用。

3）調用函數(shù)：為actor執(zhí)行單次調用。

4）終止功能：關閉此actor在計算圖的作用，包括釋放相關的存儲對象及其所占用的資源。

LIDE-C中的FIFO設計構成的數(shù)據(jù)流圖與其actors 本身相互獨立實現(xiàn)和優(yōu)化，開發(fā)者可專注于Actor的設計（如算法的實現(xiàn)和優(yōu)化），然后通過明確定義的接口和fifos集成這些actors，從而進行數(shù)據(jù)流圖的調度優(yōu)化（并行，優(yōu)先級），這些可通過相互溝通實現(xiàn)整個性能的表現(xiàn)。FIFO操作由C中的接口函數(shù)封裝。函數(shù)指針是指向這些接口功能，以不同形式實現(xiàn)不同的接口。LIDE-C中的標準FIFO有以下執(zhí)行操作：

創(chuàng)建具有特定容量的新FIFO。

從/向一個fifo讀取和寫入 token。

檢查FIFO的容量。

檢查FIFO中當前的token數(shù)。

使用FIFO完成后，用FIFO解除存儲。

在一個數(shù)據(jù)流計算圖應用程序中創(chuàng)建所有actors和fifos之后，逐步連接并逐步觸發(fā)檢查圖形下一個關鍵actor，從而驗證檢查調試整個系統(tǒng)的當前使用情況。

2 基于圖像的車輛識別的網(wǎng)絡架構

本文以基于圖像的車輛識別網(wǎng) 絡系統(tǒng)，從零開始一步一步得到相應的網(wǎng)絡，實現(xiàn)參考的Matlab推理網(wǎng)絡代碼，從而進一步實現(xiàn)優(yōu)化基于數(shù)據(jù)流計算圖的C代碼實現(xiàn)，此方法具有一定的普適性和擴展性，且根據(jù)不同的需求可量身定制其它的應用需求。案例中的CNN實現(xiàn)四種車輛之間的分類——公共汽車，卡車，面包車和汽車，此源數(shù)據(jù)和工作基于之前的車輛分類工作^[3]，提取了相關的有用信息，使用Caffe + Python 隨機搜索來最優(yōu)的超參數(shù)。在使用50組隨機生成的超參數(shù)（圖 3）進行一系列搜索迭代之后，針對精確率和參數(shù)大小及性能的特征平衡，推導出一套可實施的優(yōu)化過的超參數(shù)車輛分類系統(tǒng), 等到訓練模型穩(wěn)定后，提取相關的模型權重圖4（注：本文目的是演示實現(xiàn)優(yōu)化數(shù) 據(jù)流計算圖的方法，所選取的類型為double型，讀者可根據(jù)深度學習相關知識，可相應地調整網(wǎng)絡，例如用全卷積網(wǎng)絡或半精度數(shù)據(jù)類型或者8比特的整數(shù)類型）。

訓練好后得到的超參數(shù)所形成的CNN架構（見圖 4）由五層組成——兩個卷積層，兩個全連接層，最后是分類器層。第一層包括三個通道（紅綠藍RGB通道），每個輸入圖像96 x 96的三通道經(jīng)過過濾后分解成32個特征圖，然后最大值池化為48×48。在第二層中，有32組特征圖再次卷積，然后下采樣最大值池化到24×24。第三層和第四層是兩層全連接層，每個節(jié) 點有100個節(jié)點。分類器層執(zhí)行從100個元素到4個元素并通過softmax運算符得到4個等級可能概率值。在層于層相鄰之間，應用整流線性單元非線性激活函數(shù) （ReLU）。

3 基于數(shù)據(jù)流的網(wǎng)絡架構計算圖設計

在得到整個網(wǎng)絡拓撲圖（圖5）并提取出網(wǎng)絡各個神經(jīng)元的權重（圖4）后，先在Matlab環(huán)境中實現(xiàn)其 CNN 推理的圖像分類代碼，其主要目的其一是確保此參數(shù)模型的最后效果，性能和準確性，其二是有一個參考代碼并可收集每一層運算后的數(shù)值，便于后續(xù)數(shù) 據(jù)流計算圖C代碼的實現(xiàn)、比較、調試和優(yōu)化，這種逐層式至最后龐大系統(tǒng)的檢測有益于整體代碼實現(xiàn)的魯棒性，并將可能的測試失敗的原因顯示化在具體的某一層某個actor或fifo，進行更好更快速的實現(xiàn)代碼設計優(yōu)化和迭代。

在開發(fā)了基于Matlab的CNN車輛分類系統(tǒng)的仿真參考模型后（圖6和圖7），我們繼續(xù)開發(fā)基于數(shù)據(jù)流計算圖LIDE-C的設計以及實現(xiàn)，并在多平臺多核上進行性能測試，通過迭代式優(yōu)化數(shù)據(jù)流計算圖及actor 算法來提高整體性能。

作為數(shù)據(jù)流模型的第一步，把CNN網(wǎng)絡拓圖轉換了網(wǎng)絡框圖（圖8），每個框圖都可以看成帶參數(shù) 的高階actor, 高階actor可以封裝一個或多個帶參數(shù) subgraph系統(tǒng)子圖，而其中可能存在成千上萬的actor 互連，其形式類似于硬件模塊的實現(xiàn)，所以可以進行很好的軟硬件結合，此網(wǎng)絡包含了共10種不同類型的actor：讀通道actor，寫通道actor，卷積actor，池化actor, 非線性激活函數(shù)actor，分類器actor，聚合actor, 廣播actor，乘加 actor，矩陣乘法actor。針對這些actors，按照不同的圖結構進行封裝設計，形成三種不同的數(shù)據(jù)流計算圖（圖9，圖10，圖11）。

設計一的優(yōu)點是整個架構與框圖最接近，且非常的清晰，易于理解和實現(xiàn)，驗證和檢查整個數(shù)據(jù)流計算圖很直接方便。缺點是當子圖已經(jīng)確定且封裝為一個大的 actor后，難以進一步深層次地優(yōu)化，若子圖來自于第三方機構，當整個程序有錯誤時，很難進行調試；設計二相對簡潔，在卷積層用到了循環(huán)展開(loop unrolling)和流水線(pipeline)技術進行優(yōu)化，增加延遲但提高輸出量。此方法很適合用于網(wǎng)絡訓練圖結構，但需要一些技巧，總體來說，整個計算圖仍舊可以理解；設計三的優(yōu)點是整個數(shù)據(jù)流計算圖可以任意地在某一步、某一個actor或fifo或緩沖區(qū)里跟蹤，控制，管理，驗證，檢測數(shù)據(jù)，除此之外，設計三的顆粒度更細，可以更深層次進行優(yōu)化，自行控制的選擇余地比較多，相反的，缺點是不易于理解，構成，實現(xiàn)，優(yōu)化這顆粒度細且龐大復雜的數(shù)據(jù)流計算圖。

參考文獻：

[1] SHEN C,PLISHKER W,WU H,et al.A lightweight dataflow approach for design and implementation of SDR systems[C]. Proceedings of the Wireless Innovation Conference and Product Exposition,Washington DC, USA, November, 2010:640–645.

[2] BHATTACHARYYA S S,PLISHKER W,SHEN C,et al.The DSPCAD integrative command line environment: Introduction to DICE version 1.1.Institute for Advanced Computer Studies, University of Maryland at College Park, Tech. Rep. UMIACSTR-2011-10, 2011.

[3] HUTTUNEN H,YANCHESHMEH F, CHENK.Car type recognition with deep neural networks[C].ArXiv e-prints, February 2016, submitted to IEEE Intelligent Vehicles Symposium 2016.

[4] BOUTELLIER J,LUNNIKIVI H.Design Flow for Portable Dataflow Programming of Heterogeneous Platforms[C].2018 Conference on Design and Architectures for Signal and Image Processing (DASIP):106-111.

[5] Representative Projects of the Maryland DSPCAD Research Group[EB/OL]. https://ece.umd.edu/DSPCAD/ projects/toplevel/projects.htm.

本文來源于科技期刊《電子產品世界》2020年第03期第22頁，歡迎您寫論文時引用，并注明出處。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 202003 深度學習 數(shù)據(jù)流 計算圖 多核運算 車輛分類

評論

相關推薦

軟件定義數(shù)據(jù)中心網(wǎng)絡中自適應路由技術

網(wǎng)絡與存儲 202209 數(shù)據(jù)流自適應評估代價 | 2022-09-22

深度強化學習核心技術開發(fā)與應用

szhlss123 | 2022-08-10

usb1.1中文手冊

資源下載串行總線 USB 數(shù)據(jù)流協(xié)議層電氣特性設備構架 | 2008-04-09

基于深度學習的智能電網(wǎng)短期日負荷曲線預測系統(tǒng)設計與實現(xiàn)

智能計算 202302 深度學習短期負荷預測卷積神經(jīng)網(wǎng)絡長短期記憶網(wǎng)格 Flask | 2023-02-27

USB接口設計

資源下載 USB 接口設計總線協(xié)議拓撲結構 Hub 數(shù)據(jù)流域包數(shù)據(jù)觸發(fā) 低速操作錯誤檢驗 | 2008-04-10

第7章數(shù)據(jù)流模型化

yzlhccdec | 2007-04-27

基于深度學習的跌倒檢測技術對比與分析*

智能計算深度學習跌倒檢測卷積神經(jīng)網(wǎng)絡長短期記憶網(wǎng)絡 202212 | 2022-12-22

[Banana pi申請]+遠程安卓視頻數(shù)據(jù)流服務器的設計與實現(xiàn)

iLeeCrane | 2014-11-15

TFLite模型的開盲盒體驗

嵌入式系統(tǒng) TFLite 模型推理庫深度學習 | 2024-05-10

【白皮書】視頻壓縮數(shù)據(jù)流視頻監(jiān)控白皮書

leaderpig | 2012-07-06

一種改進的可遷移深度學習模型*

智能計算 202210 可遷移深度學習無標簽 | 2022-10-25

新型應用受益于浮點DSP 的高精度

資源下載浮點DSP I/O 數(shù)據(jù)流 | 2007-04-19

Java程序設計課件

資源下載 Java 程序設計結構化程序面向對象數(shù)組字符串例外文件數(shù)據(jù)流圖形用戶界面網(wǎng)絡程序多線程 | 2008-09-24

深度學習（人工神經(jīng)網(wǎng)絡的研究的概念）

大綠葉 | 2020-07-28

視覺慣性導航融合算法研究進展

物聯(lián)網(wǎng)與傳感器 202302 視覺慣性導航優(yōu)化耦合算法深度學習 | 2023-02-21

基于圖結構的圖像注意力網(wǎng)絡

智能計算 202207 深度學習注意力機制圖像分類人臉識別 | 2022-07-26

深度學習模型的云邊協(xié)同訓練和部署*

智能計算云邊協(xié)同深度學習服務器部署 202212 | 2022-12-22

直覺有害！Facbook最新研究：易于解釋的神經(jīng)元會誤導DNN的學習

智能計算 DNN 深度神經(jīng)網(wǎng)絡深度學習 | 2022-07-05

Java程序設計強化訓練課件

資源下載 Java 程序設計結構化程序面向對象程序設計數(shù)組字符串異常處理文件數(shù)據(jù)流圖形用戶界面設計小應用程序網(wǎng)絡程序設計多線程編程規(guī)范 | 2008-09-24

Firefly DL小巧輕便，嵌入式深度學習加速部署

智能計算 Firefly DL 深度學習人工智能 | 2023-12-22

焦點

推薦視頻

技術專區(qū)

關閉

<rt id="zckxz"><dfn id="zckxz"></dfn></rt>