色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > EdgeBoard中“活靈活現(xiàn)”的算子

          EdgeBoard中“活靈活現(xiàn)”的算子

          作者: 時間:2019-12-30 來源:電子產(chǎn)品世界 收藏

          背景介紹

          本文引用地址:http://cafeforensic.com/article/201912/408763.htm

          數(shù)據(jù)、算法和算力是人工智能技術(shù)的三大要素。其中,算力體現(xiàn)著人工智能()技術(shù)具體實現(xiàn)的能力,實現(xiàn)載體主要有CPU、GPU、和ASIC四類器件。CPU基于馮諾依曼架構(gòu),雖然靈活,卻延遲很大,在推理和訓練過程中主要完成其擅長的控制和調(diào)度類任務(wù)。GPU以犧牲靈活性為代價來提高計算吞吐量,但其成本高、功耗大,尤其對于推理環(huán)節(jié),并行度的優(yōu)勢并不能完全發(fā)揮。專用ASIC芯片開發(fā)周期長,資金投入大,由于其結(jié)構(gòu)固化無法適應(yīng)目前快速演進的算法。因其高性能、低功耗、低延遲、靈活可重配的特性,被廣泛地用作加速,開發(fā)者無需更換芯片,即可實現(xiàn)優(yōu)化最新的AI算法,為產(chǎn)品贏得寶貴的時間。

          由此,百度基于打造了EdgeBoard嵌入式AI解決方案,能夠提供強大的算力,支持定制化模型,適配各種不同的場景,并大幅提高設(shè)備端的AI推理能力,具有高性能、高通用、易集成等特點。本文將主要介紹EdgeBoard中神經(jīng)網(wǎng)絡(luò)算子在FPGA中的實現(xiàn)。

          FPGA加速的關(guān)鍵因素

          FPGA實現(xiàn)AI加速有兩大關(guān)鍵因素,一是FPGA內(nèi)部資源,二是內(nèi)存訪問帶寬。FPGA內(nèi)部資源主要包括LUT,F(xiàn)F,RAM以及DSP等,F(xiàn)PGA本質(zhì)上是可編程邏輯電路,可用邏輯電路的多少取決于芯片內(nèi)部資源,這也就決定了芯片的峰值算力和可容納的算子種類數(shù)。

          在深度學習中,90%以上的計算都集中在conv、dw-conv和pooling等少數(shù)的幾個算子上。所以,并不是FPGA中添加的加速算子數(shù)量越多越好,而是要注重算子的加速質(zhì)量:一是用更少的資源實現(xiàn)更多的功能;二是提高耗時占比大的算子性能。

          在實踐中,添加新算子前需要平衡該算子在網(wǎng)絡(luò)中所耗時間的占比以及其在FPGA中所消耗的資源。當然可以通過選取更大規(guī)模的片子來突破這種限制,但是端上設(shè)備受限于成本、功耗等因素,只能平衡多種因素選擇一個合適規(guī)模的芯片,然后通過多種設(shè)計方法和技巧來提高加速性能。本文接下來就將介紹在EdgeBoard中如何優(yōu)化設(shè)計DSP資源提升算力,以及如何通過算子復(fù)用和融合技術(shù)實現(xiàn)對多算子的支持。

          提升內(nèi)存訪問帶寬是提高AI加速性能的另一關(guān)鍵因素,因為FPGA與內(nèi)存的數(shù)據(jù)交互在整個計算過程中占比很高,有時甚至超過了計算本身所消耗的時間。直接提高內(nèi)存訪問帶寬的方法包括提高DDR位寬、增加傳輸所用的高速接口資源、提高DMA傳輸?shù)臅r鐘頻率等。另外也可以通過復(fù)用FPGA芯片上的內(nèi)存資源(RAM)以及計算和傳輸交疊執(zhí)行(overlap)等方法,減少與外部DDR存儲的交互,降低數(shù)據(jù)傳輸?shù)拈_銷。這些設(shè)計方法較為常見,本文不做詳細介紹。

          兩大關(guān)鍵技術(shù)實現(xiàn)四倍算力提升

          FPGA中的計算主要依靠DSP實現(xiàn),高效使用DSP是保證FPGA算力的關(guān)鍵。EdgeBoard FPGA中的DSP采用DSP48E2架構(gòu),如圖1所示,包括一個27-bit的預(yù)加法器(pre-adder),一個27x18的乘法器(mult)和一個48-bit的ALU。

          image.png

          圖1. DSP48E2結(jié)構(gòu)圖

          在EdgeBoard的FPGA設(shè)計中,充分利用DSP48E2本身的特點,采用supertile和INT8移位計算技術(shù),實現(xiàn)了四倍算力提升。

          一.Supertile

          一般來講,Xilinx Ultrascale系列FPGA運行的最高頻率在300MHz到400MHz之間,但DSP是FPGA中的硬核,可以運行在更高的頻率上。如圖2所示,SLB-M與DSP這樣構(gòu)成的基本單元,被稱之為Supertile,F(xiàn)PGA內(nèi)部Supertile的布局如圖3所示。Supertile技術(shù)的核心在于使DSP運行于兩倍邏輯頻率上,使整個系統(tǒng)算力達到倍增的效果。這主要得益于芯片結(jié)構(gòu)中SLICEM與DSP位置臨近,使用專有的布線資源,延遲縮短,可以支撐SLICEM以雙倍邏輯運行的頻率向DSP提供數(shù)據(jù)。另外,神經(jīng)網(wǎng)絡(luò)中存在著數(shù)據(jù)復(fù)用,通過filter和image數(shù)據(jù)的復(fù)用和交織,一次取數(shù)多次使用,從而減少數(shù)據(jù)的搬運次數(shù),提升計算效率。

          image.png

          圖2. Supertile結(jié)構(gòu)

          image.png

          圖3. DSP和SLICEM在FPGA中的位置

          二.INT8移位計算技術(shù)

          利用DSP48E2的結(jié)構(gòu)特點,一個DSP完成兩路INT8的乘加。在進行8bit數(shù)據(jù)計算時,將a左移18位,置于輸入的高8位,低19位補0,從DSP的A端輸入,b維持在低8位,從DSP的D端輸入,如圖4所示。a與b兩者先進行累加,然后與c相乘后,結(jié)果將分別位于輸出的高(a*c)、低(b*c)兩部分,該計算過程如圖5所示。

          image.png

          圖4. DSP移位示意圖

          image.png

          圖5.單DSP實現(xiàn)兩路INT8相乘

          在實踐中,我們把a,b兩路作為filter數(shù)據(jù)輸入,c作為image數(shù)據(jù)輸入。這樣DSP在一個時鐘周期內(nèi)就同時完成了兩路的計算,再次使算力翻倍。結(jié)合前面提到的supertile倍頻設(shè)計,兩種設(shè)計使得單個DSP的算力提升四倍。因為一次計算過程有乘、加兩個操作(operations),所以單個DSP在一個時鐘周期高效的完成了8個operations。

          多算子復(fù)用

          深度學習中主要有兩類運算,一類是指數(shù)運算,另一類是乘加運算。前者主要位于激活函數(shù)層,后者是深度學習涉及最多也是最基礎(chǔ)的運算。乘加運算根據(jù)kernel的維度不同,又可分為向量型和矩陣型,在EdgeBoard中劃分為三個運算單元,分別為向量運算單元(VPU: vector processing unit)、矩陣運算單元(MPU: matrix processing unit)和指數(shù)激活運算單元(EXP-ACT: exponential activation unit)。

          一.向量運算單元

          向量運算單元VPU負責實現(xiàn)dw-conv(depth-wise convolution),完成3維輸入圖像(H x W x C)和3維卷積核(K1 x K2 x C)的乘加操作。其中一個卷積核負責輸入圖像的一個通道,卷積核的數(shù)量與上一層的通道數(shù)相同,該過程如圖6所示。圖7表示的是一個通道內(nèi)以kernel 2x2和stride 2為例的計算過程。

          image.png

          圖6. dw-conv示意圖

          image.png

          圖7. dw-conv的計算

          EdgeBoard通過復(fù)用VPU一套計算資源實現(xiàn)了average/max pooling,elementwise add/sub,scale,batch-normalize,elementwise-mul和dropout等多種算子。

          1.Average pooling可以看作是卷積核參數(shù)固定的dw-conv,即將求和后取平均(除以卷積核面積)的操作轉(zhuǎn)換成先乘以一個系數(shù)(1/卷積核面積)再求和。如圖8所示,該例子中卷積核大小為2x2,卷積核參數(shù)即為1/4。卷積核固定的參數(shù)可以類似于dw-conv下發(fā)卷積核的方式由SDK封裝后下發(fā),也可以通過SDK配置一個參數(shù)完成,然后在FPGA中計算轉(zhuǎn)換,這樣節(jié)省卷積核參數(shù)傳輸?shù)臅r間。另外,max-pooling算子與average pooling的計算過程類似,只需要將求均值操作換成求最大值的操作,其余挖窗、存取數(shù)等過程保持不變。

          image.png

          圖8. Pooling復(fù)用dw-conv

          2.Elementwise add/sub完成兩幅圖像對應(yīng)元素的相加或相減,不同于dw-conv的是它有兩幅輸入圖像。如果我們控制兩幅圖像的輸入順序,將兩幅圖像按行交錯拼成一幅圖像,然后取卷積核為2x1,行stride為1,列stride為2,pad均設(shè)置成0,則按照dw-conv的計算方式就完成了elementwise的計算。通過在FPGA中設(shè)置當前像素對應(yīng)的kernel值為1或-1,就可以分別實現(xiàn)對應(yīng)elementwise add和elementwise sub兩個算子。該過程如圖9所示。

          image.png

          圖9. ew-add/sub復(fù)用dw-conv

          3.Scale算子主要在圖像預(yù)處理時使用,將輸入圖像每一個通道的全部像素點乘以該通道對應(yīng)的scale值,然后加上bias。如果我們將dw-conv的卷積核大小設(shè)成1x1,行列stride都設(shè)置成1,pad設(shè)置成0,卷積核參數(shù)值設(shè)成scale,就可以通過dw-conv完成scale算子的功能。通過分析發(fā)現(xiàn),batch-normalize,elementwise-mul和dropout等算子都可以通過scale算子來實現(xiàn)。

          二.矩陣運算單元

          矩陣運算單元MPU負責實現(xiàn)convolution,完成3維輸入圖像(H x W x C)和4維卷積核(N x K1 x K2 x C)的乘加操作,單個卷積核的通道數(shù)和輸入圖像的通道數(shù)相同,而卷積核的數(shù)量N決定了輸出的通道數(shù),如圖10所示。full connection算子實現(xiàn)的1維輸入數(shù)組(長度C)和2維權(quán)重(N x C)的乘加操作。將 full connection輸入數(shù)組擴展成 H x W x C,輸出擴展成 N x K1 x K2 x C,其中H, W, K1和K2均設(shè)置成1,這樣 full connection就可以調(diào)用convolution來實現(xiàn)。另外,在計算 deconv時,通過SDK對卷積核進行分拆、重排,就可以通過調(diào)用conv來實現(xiàn)deconv,同樣帶來了極大的收益。

          image.png

          圖10. Conv算子示意圖

          三.指數(shù)激活運算單元

          指數(shù)激活運算單元EXP-ACT實現(xiàn)的基礎(chǔ)是sigmoid,由于在FPGA中進行指數(shù)型運算比較耗資源,如何復(fù)用該計算單元就變得非常有意義。通過分析發(fā)現(xiàn),可以把 tanh和兩通道softmax轉(zhuǎn)換成 sigmoid的形式,這樣一個指數(shù)運算單元就支持了3種算子,實現(xiàn)資源利用的最大化。

          多算子融合

          在推理時做BatchNorm運算非常耗時,通過SDK將BatchNorm+Scale的線性變換參數(shù)融合到卷積層,替換原來的weights和bias,這樣4個算子可以融合成單個算子conv + batchnorm + scale + relu,對于dw-conv同樣如此。相對于每計算完一個算子就將數(shù)據(jù)送回內(nèi)存,這種算子融合大大減少了內(nèi)存的讀寫操作,有效提高了處理幀率。

          此外,我們將scale、bias和relu為代表的激活函數(shù)層放到各算子之后的鏈路上,然后統(tǒng)一送到DMA傳輸模塊,如圖11所示。這不僅使得各算子復(fù)用了這些邏輯,節(jié)省了大量片內(nèi)資源,也使得各算子都可以具備這些功能,且都能以最大帶寬進行DMA傳輸。在實踐中,我們將這些功能做成可選項,由軟件根據(jù)當前網(wǎng)絡(luò)算子的需要進行選擇,在節(jié)省資源的同時,既保證了通用性,又兼顧了靈活性。

          image.png

          圖11. EdgeBoard內(nèi)部結(jié)構(gòu)和鏈路圖



          關(guān)鍵詞: FPGA AI

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉