PYNQ中實(shí)現(xiàn)SoftMax函數(shù)加速器
孫齊偉
本文引用地址:http://cafeforensic.com/article/201905/401026.htm?。ㄎ髂辖煌ù髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756)
摘要:SoftMax函數(shù)通常在深度學(xué)習(xí)中作為激活函數(shù)使用,但其計(jì)算涉及自然指數(shù)和除法運(yùn)算,傳統(tǒng)PC機(jī)上計(jì)算較慢,拖累了一個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。本文針對(duì)自然指數(shù)運(yùn)算的特點(diǎn),提出了一種名為基底拆分法的新方法。該方法將SoftMax函數(shù)中自然指數(shù)計(jì)算拆分為多個(gè)由查找表實(shí)現(xiàn)的特定基底上,通過(guò)這種方法,一個(gè)復(fù)雜的自然指數(shù)計(jì)算過(guò)程即可由查找表過(guò)程和乘法過(guò)程實(shí)現(xiàn)。這種方法有效的降低了硬件復(fù)雜度以及邏輯傳播延時(shí)。由于該方法中使用了自定義的數(shù)據(jù)結(jié)構(gòu),因此本文采用了CPU + FPGA的架構(gòu),通過(guò)合理分工,加速SoftMax函數(shù)計(jì)算。同時(shí),本文將基于這種方法設(shè)計(jì)的IP核在PYNQ-Z2開(kāi)發(fā)板上進(jìn)行了板級(jí)調(diào)試。
關(guān)鍵詞:PYNQ,ZYNQ,SoftMax,AXI總線,異構(gòu)計(jì)算
* 本作品獲得第二屆“全國(guó)大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽”全國(guó)一等獎(jiǎng)
0 引言
Xilinx推出的ZYNQ系列FPGA中嵌入了一顆雙核ARM,既能發(fā)揮FPGA的定制特性,也能發(fā)揮處理器的通用特性,而且兩個(gè)部分之間接口豐富、官方文檔齊全,可玩性極高。同時(shí)相應(yīng)的開(kāi)發(fā)板也很多。傳統(tǒng)的ZYNQ開(kāi)發(fā)板(Zedboard等)需要結(jié)合vivado和SDK兩大工具分別對(duì)PL、PS端進(jìn)行硬件和軟件開(kāi)發(fā)。本次我介紹的平臺(tái)為PYNQ開(kāi)發(fā)板可使用Python將軟件操作和硬件控制進(jìn)行無(wú)縫銜接,目前已經(jīng)出到Z2版本,由依元素進(jìn)行代理銷(xiāo)售,999塊極具性價(jià)比。
PYNQ是Xilinx一項(xiàng)旨在使用Python和一些lib讓SoC開(kāi)發(fā)更加簡(jiǎn)單的開(kāi)源項(xiàng)目,以我的理解其本質(zhì)是Python的一些第三方庫(kù),是對(duì)PS端操作的封裝。傳統(tǒng)的ZYNQ開(kāi)發(fā)板也能使其變?yōu)镻YNQ開(kāi)發(fā)板,當(dāng)引入Python后就可以使用一些Python中強(qiáng)大的第三方庫(kù)了例如Numpy、Matplotlib等。
1 SoftMax函數(shù)介紹及計(jì)算方案介紹
SoftMax 函數(shù)是神經(jīng)網(wǎng)絡(luò)中的一種輸出層函數(shù),計(jì)算輸出層的值,主要用于神經(jīng)網(wǎng)絡(luò)最后一層。其表達(dá)式如下所示:
設(shè)計(jì)中的關(guān)鍵問(wèn)題是 自然指數(shù)的計(jì)算 ,傳統(tǒng)的方案有:
?。?)查表法:同等規(guī)格定點(diǎn)數(shù)下精度極高,但若要在較大范圍上計(jì)算需要消耗大量資源。
(2)CORDIC:利用迭代特性,資源復(fù)用,占用資源極小,常用于計(jì)算器中,但在大規(guī)模計(jì)算中需要進(jìn)行流水線化改造,且需要想辦法克服最大旋轉(zhuǎn)角度限制的問(wèn)題。
?。?)泰勒級(jí)數(shù)展開(kāi):也即多項(xiàng)式擬合,該法較為靈活,多項(xiàng)式次數(shù)越高精度越高,劃分區(qū)間越細(xì)精度越高,是較為常用的方法。
本文針對(duì)指數(shù)計(jì)算的特性,設(shè)計(jì)了一種原理簡(jiǎn)單的計(jì)算方案,并且通過(guò)了板級(jí)測(cè)試。根據(jù)其計(jì)算特性稱(chēng)其為基底查表法。
在十進(jìn)制中,若要計(jì)算3.68的自然指數(shù)我們可以通過(guò)公式(1)分別計(jì)算e3,e0.6,e0.08,所以可以事先將需要的自然指數(shù)值存在ROM表中,計(jì)算時(shí)將待計(jì)算數(shù)字通過(guò)基底拆分分別得到個(gè)位、十分位、百分位,并作為ROM的尋址地址,最后將查表得到的值進(jìn)行乘法操作即可得到最終結(jié)果。但數(shù)字電路中實(shí)現(xiàn)十進(jìn)制取整取余操作時(shí)較為復(fù)雜的,因此實(shí)際使用時(shí)對(duì)二進(jìn)制情況進(jìn)行了優(yōu)化。
圖2為基于二進(jìn)制移位操作的基底拆分示意圖,待計(jì)算的16bit數(shù)據(jù),高三位表示的是小數(shù)點(diǎn)的位置信息,低十三位為數(shù)據(jù)位。經(jīng)過(guò)左移并按照人為設(shè)計(jì)的格式輸出即可還原數(shù)據(jù)。這種方法僅采用移位操作進(jìn)行基底劃分,因此硬件結(jié)構(gòu)簡(jiǎn)單、傳播延時(shí)小。
工程中設(shè)計(jì)的IP核內(nèi)部結(jié)構(gòu),見(jiàn)圖3。
其中的關(guān)鍵流水線如圖4。
大致原理就是如此,可以看出這種方法也是很靈活的,可以通過(guò)簡(jiǎn)單地增加ROM和乘法器數(shù)量即可擴(kuò)大計(jì)算范圍,而且精度可以通過(guò)增減ROM表存儲(chǔ)的定點(diǎn)數(shù)位寬進(jìn)行改變,乘法器可以使用ZYNQ中的DSP資源來(lái)提高性能。本次設(shè)計(jì)的范圍針對(duì)[-10,10]。
2 誤差結(jié)果
測(cè)試時(shí)分別使用[-10,10],[-5,5]兩個(gè)區(qū)間中4096個(gè)點(diǎn)進(jìn)行誤差分析,大致過(guò)程如圖5。
最后得到的絕對(duì)誤差圖,見(jiàn)圖6。
誤差在10^-7數(shù)量級(jí)上,可以說(shuō)是很小了。
3 IP核接口介紹
深度學(xué)習(xí)又被稱(chēng)為煉丹,究其原因就是其訓(xùn)練速度較慢,因此考慮深度學(xué)習(xí)中的加速問(wèn)題十分有意義。FPGA由于其定制特性,可以通過(guò)邏輯門(mén)電路十分高效的完成計(jì)算過(guò)程。
本次我使用FPGA實(shí)現(xiàn)了一款A(yù)XI接口的激活函數(shù)softmax的加速器,并且通過(guò)PYNQ開(kāi)發(fā)板對(duì)其進(jìn)行驗(yàn)證同時(shí)完成了精度測(cè)試。輸入輸出均為AXI總線形式,內(nèi)部采用了一個(gè)AXI_S和一個(gè)AXI_M,其中,輸入AXI_S用于ARM端向ip核傳遞寫(xiě)地址、讀地址、數(shù)據(jù)個(gè)數(shù)、輸出數(shù)據(jù)16/8bit切換,AXI_M完成對(duì)PS端DDR的讀寫(xiě)操作,這樣設(shè)計(jì)的目的是為了最大化減小ARM端的工作量,使整個(gè)系統(tǒng)更加高效,因?yàn)锳XI_M可以主動(dòng)的讀寫(xiě)AXI_S并且AXI_S只能被動(dòng)的被AXI_M進(jìn)行讀寫(xiě),這個(gè)過(guò)程設(shè)計(jì)好后無(wú)需ARM端干預(yù)。其結(jié)構(gòu)圖如圖7所示。
因此涉及的操作為 GPIO口操作,AXI寫(xiě)操作,DDR操作。這里原本設(shè)計(jì)采用ZYNQ上的AXI-HP端口,但是調(diào)試時(shí)發(fā)現(xiàn)該端口在數(shù)據(jù)格式配置為32 bit時(shí)仍采用的64bit數(shù)據(jù)位,估計(jì)是個(gè)bug,因此不得不換成AXI-GP端口了。
(1)從ARM引出的兩個(gè)GPIO一個(gè)作為復(fù)位信號(hào),另一個(gè)作為觸發(fā)信號(hào)
?。?)AXI_M接口,用于配置ip核的一些信息。
4 任務(wù)劃分
為了充分發(fā)揮ARM對(duì)通用任務(wù)的處理特性以及PL的定制特性,本次設(shè)計(jì)的系統(tǒng)中PS完成了讀取數(shù)據(jù)、數(shù)據(jù)的定點(diǎn)化和數(shù)據(jù)移動(dòng)任務(wù),PL端利用其定制化特性完成計(jì)算的加速。整體結(jié)構(gòu)框圖如圖8。
圖中的CPU即為ARM,工作時(shí)將模擬輸入的數(shù)據(jù)寫(xiě)入DDR,并且完成定點(diǎn)化工作。圖中硬件即為PL端設(shè)計(jì)的加速器,其工作分為兩個(gè)階段,一是計(jì)算元素的自然指數(shù)值并對(duì)其進(jìn)行求和,二是利用第一個(gè)階段的自然指數(shù)值和和做除法求得每個(gè)元素的softmax值。
5 PYNQ平臺(tái)的優(yōu)勢(shì)
我的設(shè)計(jì)在曾在傳統(tǒng)的ZYNQ開(kāi)發(fā)板上進(jìn)行過(guò)調(diào)試。設(shè)計(jì)好硬件后需要結(jié)合SDK工具對(duì)ARM核進(jìn)行C語(yǔ)言開(kāi)發(fā),結(jié)果最后需要通過(guò)串口返回PC機(jī)進(jìn)行處理。
在SDK中返回的數(shù)據(jù),返回的數(shù)據(jù)經(jīng)過(guò)上位機(jī)的處理才能得到想要的誤差數(shù)據(jù),較為繁瑣。
但PYNQ不一樣,PYNQ上使用了Jupyter可以使用瀏覽器進(jìn)行在線Pyhthon編程,而且Python中numpy科學(xué)計(jì)算庫(kù)可以只使用3句話就實(shí)現(xiàn)softmax的高精度計(jì)算,結(jié)合pynq的相應(yīng)庫(kù)可以實(shí)現(xiàn)軟件處理和硬件控制的無(wú)縫銜接,PL端加載bit文件、PL端控制、軟件計(jì)算、matplotlib繪制均使用Python完成,最后的結(jié)果都可以在網(wǎng)頁(yè)中顯示出來(lái),極其方便。
圖中我使用了matplotlib庫(kù)將軟件計(jì)算結(jié)果與硬件計(jì)算結(jié)果進(jìn)行了絕對(duì)誤差計(jì)算,可直接在網(wǎng)頁(yè)中顯示出圖像,更加形象化。本次我的設(shè)計(jì)中,使用PYNQ完成了 從SD卡中讀入數(shù)據(jù),數(shù)據(jù)定點(diǎn)化,數(shù)據(jù)寫(xiě)入DDR,控制PL端進(jìn)行加速計(jì)算,讀DDR,將軟件結(jié)果與硬件結(jié)果對(duì)比通過(guò)誤差散點(diǎn)圖來(lái)測(cè)試設(shè)計(jì)的IP核的精度。
ZYNQ與PYNQ平臺(tái)的差異可通過(guò)對(duì)比兩個(gè)平臺(tái)的系統(tǒng)框圖得到
可以看出,傳統(tǒng)ZYNQ通常為裸機(jī)開(kāi)發(fā),而且PYNQ一般為在自身運(yùn)行的Ubuntu上進(jìn)行Python開(kāi)發(fā),因此PYNQ相對(duì)而言上手簡(jiǎn)單加上一些強(qiáng)大的第三方庫(kù)的支持使用起來(lái)也十分方便、有趣。
6 PYNQ使用方法
一些基礎(chǔ)操作可以參考官方Get Start我總結(jié)有如下步驟:
?。?)vivado中設(shè)計(jì)PL端的硬件結(jié)構(gòu)--PC操作,如圖13。
(2)vivado導(dǎo)出設(shè)計(jì)tcl文件和bit文件--PC操作
write_bd_tcl -force C:/Users/Administrator/Desktop/test.tcl
?。?)將tcl文件和bit文件放入PYNQ中--PC操作,如圖14。
windows上運(yùn)行 \pynq 即可通過(guò)sdb功能連接PYNQ開(kāi)發(fā)板,進(jìn)行文件移動(dòng)
?。?)使用Overlay將bit文件進(jìn)行加載--PYNQPython操作
overlay = Overlay('/home/xilinx/pynq/overlays/softmax/design_1.bit')
至此設(shè)計(jì)就初始化在PL端,使用Python控制相應(yīng)外設(shè)即可。
7 Python中相關(guān)lib的基本使用
1.Overlay
from pynq import Overlayov
overlay = Overlay('/home/xilinx/pynq/overlays/softmax/design_1.bit')
用于加載比特流文件至PL端
2.GPIO
from pynq import GPIO
rst = GPIO(GPIO.get_gpio_pin(0), 'out')
triggle = GPIO(GPIO.get_gpio_pin(1), 'out')
triggle.write(1)
rst.write(1)
rst.write(0)
rst.write(1)
操作PS端的GPIO口,操作的是64bit的PS-PL端的EMIO
3.Xlnk
from pynq import Xlnk
xlnk = Xlnk()
buf = xlnk.cma_array(shape=(num,), dtype=np.uint32, cacheable=0)
addr = buf.physical_address
結(jié)合numpy在DDR中分配空間,用于PL端AXI_M使用其中physical_address可以得到DDR中的物理地址在分配空間時(shí),有個(gè)cacheable屬性,由于PS和PL端都要對(duì)DDR進(jìn)行操作,所以為了防止PS的cache導(dǎo)致讀到的數(shù)據(jù)未被更新,所以通常需要關(guān)閉緩存功能。
4.AXI從端操作
myip = overlay.axi_s_control_0
myip.write(0x00,addr)
myip.write(0x04,addr)
myip.write(0x08,num)
myip.write(0x0c,bool_16)
myip.read(0x08)
其中axi_s_control_0是我AXI_S的模塊名稱(chēng),這個(gè)是python從導(dǎo)出的原理圖tcl文件讀出的,因此需要保證tcl和bit文件的一致性,而且需要兩者同名
注:這些信息都在上文提到的Get Start連接中可以找到,具體請(qǐng)參考官方的說(shuō)明。
8 結(jié)論
此次借助“全國(guó)大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽”契機(jī),我們分別在傳統(tǒng)ZYNQ和PYNQ平臺(tái)上完成了SoftMax函數(shù)的異構(gòu)計(jì)算加速,獲得了比較好的效果。
在傳統(tǒng)的ZYNQ平臺(tái)上開(kāi)發(fā)SoC需要具備數(shù)字電路和ARM嵌入式開(kāi)發(fā)知識(shí),比較偏向于底層。反觀PYNQ平臺(tái),利用Python這一優(yōu)美的語(yǔ)言對(duì)ZYNQ操作的封裝極大的降低了開(kāi)發(fā)難度,同時(shí)結(jié)合Python強(qiáng)大的第三方庫(kù),可玩性極高。
當(dāng)今數(shù)字電路工程師僅僅掌握數(shù)字集成電路的知識(shí)是遠(yuǎn)遠(yuǎn)不夠的,項(xiàng)目開(kāi)發(fā)更加需要復(fù)合型人才。我在項(xiàng)目中采用Verilog作為硬件開(kāi)發(fā)語(yǔ)言,使用HLS做雛形開(kāi)發(fā),同時(shí)使用Python及Matlab進(jìn)行建模及數(shù)據(jù)分析,使用的軟件工具有Xilinx的VIVADO、ISE,以及Synopsys的DC,ICC,Synplify。可以看出僅僅掌握一門(mén)技能是遠(yuǎn)遠(yuǎn)不夠支撐一個(gè)項(xiàng)目的。時(shí)代在進(jìn)步,科技在發(fā)展,因此數(shù)字IC工程師應(yīng)該保持住學(xué)習(xí)的狀態(tài),就比如說(shuō)近幾年大火的深度學(xué)習(xí),十幾年前這個(gè)領(lǐng)域還是沒(méi)有人愿意去碰的,但現(xiàn)在該領(lǐng)域已經(jīng)讓很多停滯不前的方向又迎來(lái)新春。
世界上還是存在很多機(jī)會(huì)的,但機(jī)會(huì)都是留給有準(zhǔn)備的人。
附件:本文設(shè)計(jì)的softmax ip核在PYNQ運(yùn)行所需的所有文件https://pan.baidu.com/s/1OuaoS34nIp4Ci96gMCEmug 密碼:ifme
本文來(lái)源于科技期刊《電子產(chǎn)品世界》2019年第6期第69頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處
評(píng)論