加速實(shí)現(xiàn)網(wǎng)絡(luò)邊緣低功耗人工智能應(yīng)用
架構(gòu)轉(zhuǎn)變和網(wǎng)絡(luò)邊緣日益增長(zhǎng)的智能需求
本文引用地址:http://cafeforensic.com/article/201805/380325.htm自第一臺(tái)電腦發(fā)明以來(lái),尋求最理想系統(tǒng)架構(gòu)的路途始終充滿坎坷。從計(jì)算發(fā)展史中可以看出,系統(tǒng)架構(gòu)始終在計(jì)算資源遠(yuǎn)離用戶的集中式架構(gòu)和處理資源靠近用戶的分布式架構(gòu)之間反復(fù)搖擺。曾于20世紀(jì)70年代和80年代流行的基于服務(wù)器的方案則采用高度集中化的方法積蓄計(jì)算資源和存儲(chǔ)能力。但是這一理念很快在低成本個(gè)人電腦和互聯(lián)網(wǎng)快速發(fā)展的80和90年代衰落了。在這種新的架構(gòu)模式下,計(jì)算任務(wù)不斷向個(gè)人電腦傾斜。
圍繞個(gè)人電腦構(gòu)建的高度分布式方案似乎無(wú)懈可擊,直到以智能手機(jī)、平板電腦和筆記本電腦為代表的高流動(dòng)性工具大行其道。四處攜帶計(jì)算硬件和存儲(chǔ)資源瞬間成為了一種累贅。系統(tǒng)架構(gòu)隨之緩慢地將任務(wù)移到云端,利用其近乎無(wú)限的計(jì)算和存儲(chǔ)資源、高可靠性以及低成本。
企業(yè)也在使用云端削減資本成本和更高效地管理IT基礎(chǔ)設(shè)施相關(guān)的運(yùn)維成本。隨著他們采用機(jī)器學(xué)習(xí)和更高級(jí)的人工智能技術(shù),云端將扮演著至關(guān)重要的角色。即將來(lái)臨的新一代智能工廠、智慧城市和智能家居需要云端來(lái)高效管理機(jī)器視覺(jué)系統(tǒng)、協(xié)調(diào)交通模式以及最小化功耗。
但并非所有應(yīng)用都將在云端運(yùn)行。行業(yè)專家提出,另一輪從集中式到分布式的系統(tǒng)架構(gòu)轉(zhuǎn)變的征兆已經(jīng)顯而易見(jiàn)了。無(wú)論到來(lái)與否,有一點(diǎn)確信無(wú)疑。那就是低延遲要求、不斷加劇的隱私問(wèn)題和通信帶寬限制將驅(qū)動(dòng)網(wǎng)絡(luò)邊緣對(duì)智能化的需求。隨著設(shè)計(jì)人員向網(wǎng)絡(luò)邊緣應(yīng)用加入高級(jí)智能,他們需要能夠快速響應(yīng)環(huán)境條件變化的系統(tǒng)。例如,當(dāng)一輛無(wú)人駕駛汽車駛?cè)胫腔鄢鞘校豢赡茉儐?wèn)云端如何避免沖撞事故,而是必須立即做出反應(yīng),自主做出判斷。同樣,當(dāng)AI安全攝像頭在家中檢測(cè)到異動(dòng),它必須利用設(shè)備現(xiàn)有資源做出決定,如有人闖入,則立刻報(bào)警。
這些新型應(yīng)用需要基于AI或機(jī)器學(xué)習(xí)的、靠近IoT傳感器數(shù)據(jù)源而非云端的計(jì)算解決方案。這樣的需求有多大?有人認(rèn)為潛力非??捎^。Gartner的分析師估計(jì)到2022年,多達(dá)50%的企業(yè)數(shù)據(jù)將在傳統(tǒng)的集中式數(shù)據(jù)中心或云端以外的地方處理(參見(jiàn)圖1)。
圖1. 為避免受延遲、隱私和網(wǎng)絡(luò)帶寬限制而快速興起的網(wǎng)絡(luò)邊緣計(jì)算
網(wǎng)絡(luò)邊緣計(jì)算的要求
設(shè)計(jì)人員在開(kāi)發(fā)網(wǎng)絡(luò)邊緣計(jì)算解決方案時(shí)面臨的最嚴(yán)峻的挑戰(zhàn)是要滿足高靈活性、低功耗、小尺寸和低成本等一系列獨(dú)特要求(參見(jiàn)圖2)。
圖2. 新一代基于AI的網(wǎng)絡(luò)邊緣計(jì)算應(yīng)用需要滿足一系列獨(dú)特要求
開(kāi)發(fā)人員如何構(gòu)建功耗低、尺寸小、成本低而又不影響性能的網(wǎng)絡(luò)邊緣解決方案呢?首先,他們需要具備最大化設(shè)計(jì)靈活性、支持廣泛I/O接口的芯片,還需要能夠助其利用快速演進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法的半導(dǎo)體解決方案。最后他們還需要能通過(guò)自定義量化平衡精度和功耗的解決方案。
考慮到網(wǎng)絡(luò)邊緣設(shè)備的尺寸限制,設(shè)計(jì)人員需要適當(dāng)?shù)男酒瑏?lái)設(shè)計(jì)小巧高性能的AI設(shè)備,在輸出卓越性能的同時(shí)又能滿足尺寸或散熱管理的要求。成本也是一個(gè)關(guān)鍵要素。任何一種解決方案都必須能與其他批量生產(chǎn)的網(wǎng)絡(luò)邊緣解決方案一較高下。最后,即便是在網(wǎng)絡(luò)邊緣,快速上市的規(guī)則依然適用。第一個(gè)將解決方案推向市場(chǎng)的企業(yè)必然擁有巨大優(yōu)勢(shì)。因此,任何有潛力的解決方案必須有機(jī)會(huì)獲得必要的資源實(shí)現(xiàn)定制化,并縮短開(kāi)發(fā)周期——無(wú)論是演示示例、參考設(shè)計(jì)還是設(shè)計(jì)服務(wù)。
網(wǎng)絡(luò)邊緣基于FPGA的機(jī)器學(xué)習(xí)推理
FPGA在網(wǎng)絡(luò)邊緣扮演何種角色?機(jī)器學(xué)習(xí)通常要求兩種類型的計(jì)算工作量。訓(xùn)練系統(tǒng)通過(guò)現(xiàn)有數(shù)據(jù)習(xí)得新能力。例如,人臉檢測(cè)功能通過(guò)采集和分析成千上萬(wàn)張圖片來(lái)學(xué)習(xí)識(shí)別人臉。這種早期訓(xùn)練階段實(shí)質(zhì)上是高度計(jì)算密集的。開(kāi)發(fā)人員通常會(huì)在數(shù)據(jù)中使用高性能硬件處理數(shù)量龐大的數(shù)據(jù)。
機(jī)器學(xué)習(xí)的第二階段推理通過(guò)識(shí)別圖案和執(zhí)行任務(wù)將系統(tǒng)能力用于處理新數(shù)據(jù)。例如,之前討論的人臉檢測(cè)功能將在投入現(xiàn)場(chǎng)工作后持續(xù)優(yōu)化其能力,以正確識(shí)別人臉。在此階段系統(tǒng)邊運(yùn)行邊學(xué)習(xí),隨著時(shí)間推移變得愈加智能。鑒于網(wǎng)絡(luò)邊緣的任務(wù)執(zhí)行存在諸多限制,設(shè)計(jì)人員不可能在云端進(jìn)行推理。相反他們須通過(guò)在網(wǎng)絡(luò)邊緣執(zhí)行靠近數(shù)據(jù)源的計(jì)算任務(wù)來(lái)提升系統(tǒng)的智能程度。
那么如何替代云端龐大的計(jì)算資源從而在網(wǎng)絡(luò)邊緣執(zhí)行推理呢?一種方式就是利用FPGA固有的并行處理能力來(lái)加速神經(jīng)網(wǎng)絡(luò)的性能。設(shè)計(jì)人員可以使用經(jīng)過(guò)特別優(yōu)化的低功耗低密度FPGA滿足網(wǎng)絡(luò)邊緣對(duì)嚴(yán)苛性能和功耗限制的要求。萊迪思的ECP5和iCE40 UltraPlus FPGA可滿足這一需求。設(shè)計(jì)人員可通過(guò)功耗不足1W 的ECP5 FPGA和毫瓦級(jí)iCE40 UltraPlus FPGA來(lái)加速神經(jīng)網(wǎng)絡(luò),構(gòu)建高效、基于AI的網(wǎng)絡(luò)邊緣計(jì)算應(yīng)用。(參見(jiàn)圖3)
圖3. 基于萊迪思FPGA的低功耗(1mW-1W)機(jī)器學(xué)習(xí)推理
Lattice sensAI? 簡(jiǎn)介
除了計(jì)算硬件外,設(shè)計(jì)人員還需要各類IP、工具、參考設(shè)計(jì)和設(shè)計(jì)專業(yè)知識(shí)來(lái)構(gòu)建有效的解決方案并將其快速推向市場(chǎng)。
為幫助開(kāi)發(fā)人員應(yīng)對(duì)這一日益嚴(yán)峻的挑戰(zhàn),萊迪思現(xiàn)推出基于iCE40 UltraPlus和ECP5 FPGA系列的新型全套開(kāi)發(fā)生態(tài)系統(tǒng)。Lattice sensAI旨在幫助開(kāi)發(fā)人員快速構(gòu)建適用于智能家居、智慧城市、智能工廠、智能汽車和移動(dòng)應(yīng)用的AI網(wǎng)絡(luò)邊緣解決方案,為網(wǎng)絡(luò)邊緣提供優(yōu)化靈活的推理。
正如下列圖4所示,Lattice sensAI通過(guò)集成模塊化硬件平臺(tái)、神經(jīng)網(wǎng)絡(luò)IP核、軟件工具、參考設(shè)計(jì)和來(lái)自合作伙伴生態(tài)系統(tǒng)的定制設(shè)計(jì)服務(wù),簡(jiǎn)化了靈活推理解決方案的開(kāi)發(fā),經(jīng)優(yōu)化具有低功耗(1mW-1W)、封裝尺寸小(小至5.5mm2)、批量?jī)r(jià)格低(約1-10美元)等優(yōu)勢(shì)。
圖4. Lattice sensAI為開(kāi)發(fā)人員構(gòu)建網(wǎng)絡(luò)邊緣計(jì)算解決方案提供了堅(jiān)實(shí)的基礎(chǔ)
如圖4所示,Lattice sensAI以萊迪思的硬件套件為基礎(chǔ)。為實(shí)現(xiàn)這一功能,萊迪思提供全新的模塊化硬件平臺(tái),加速機(jī)器學(xué)習(xí)的原型設(shè)計(jì),滿足廣泛的性能和功耗需求。萊迪思還提供基于低功耗iCE40 UltraPlus FPGA的移動(dòng)開(kāi)發(fā)平臺(tái)(MDP),可用于毫瓦級(jí)功耗AI設(shè)計(jì)。MDP重點(diǎn)包括一系列板載傳感器,如圖像傳感器、麥克風(fēng)、羅盤(pán)、壓力傳感器和陀螺儀等。針對(duì)功耗稍高但總體低于1W的應(yīng)用,萊迪思則提供基于ECP5 FPGA系列的模塊化視頻接口平臺(tái)(VIP)。VIP可實(shí)現(xiàn)包括MIPI CSI-2、嵌入式DisplayPort(eDP)、HDMI、GigE Vision和USB3在內(nèi)的廣泛接口的互連。屢獲殊榮的嵌入式視覺(jué)開(kāi)發(fā)套件是萊迪思首批硬件平臺(tái)之一。該模塊化平臺(tái)包含了一塊CrossLink輸入板、一塊ECP5處理器板和一塊HDMI輸出板。隨著全新eDP和USB3 GigE I/O板的加入,設(shè)計(jì)人員可輕易置換輸出板以支持其他應(yīng)用。
除開(kāi)發(fā)板外,萊迪思還提供新的神經(jīng)網(wǎng)絡(luò)加速器IP核,便于開(kāi)發(fā)人員在FPGA上進(jìn)行演示。該軟IP包括一個(gè)針對(duì)iCE40 UltraPlus FPGA優(yōu)化后的二值神經(jīng)網(wǎng)絡(luò)(BNN)加速器,可讓開(kāi)發(fā)人員使用iCE40 UltraPlus FPGA通過(guò)二值神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)深度學(xué)習(xí)應(yīng)用。萊迪思還提供一個(gè)卷積神經(jīng)網(wǎng)絡(luò)加速器(CNN)核。該核可靈活設(shè)置參數(shù),適用于萊迪思的ECP5 FPGA,它還支持不同量化,讓設(shè)計(jì)人員實(shí)現(xiàn)精度和功耗的平衡。
如圖5所示,Lattice sensAI能讓用戶通過(guò)易用的工具流程實(shí)現(xiàn)快速設(shè)計(jì)空間探索和平衡。使用Caffe和TensorFlow等行業(yè)標(biāo)準(zhǔn)框架可實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練。然后神經(jīng)網(wǎng)絡(luò)編譯器工具能將經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)模型映射成定點(diǎn)數(shù)值表示,支持不同的權(quán)重和激活量化。此外,神經(jīng)網(wǎng)絡(luò)編譯器能幫助分析、模擬和編譯不同類型的網(wǎng)絡(luò),從而在萊迪思的CNN/BNN加速器IP核上實(shí)現(xiàn),無(wú)需RTL設(shè)計(jì)經(jīng)驗(yàn)。然后使用Radiant和Diamond等傳統(tǒng)的FPGA設(shè)計(jì)軟件工具可實(shí)現(xiàn)總體的FPGA設(shè)計(jì),包括剩下的預(yù)/后處理模塊。
圖5. 通過(guò)易用的Lattice sensAI工具流程實(shí)現(xiàn)快速設(shè)計(jì)空間探索和平衡
為簡(jiǎn)化常用AI功能的實(shí)現(xiàn),Lattice sensAI包含了各類使用該產(chǎn)品硬件平臺(tái)、IP核以及軟件工具的參考設(shè)計(jì)和演示示例,例如:
低功耗人臉檢測(cè)——該演示包含適用于網(wǎng)絡(luò)邊緣、使用神經(jīng)網(wǎng)絡(luò)模型的、低功耗快速人臉檢測(cè)功能。該基于iCE40 UltraPlus FPGA的演示使用了二值權(quán)重和激活,能幫助設(shè)計(jì)人員實(shí)現(xiàn)低于1mW功耗的人臉識(shí)別。
汽車后裝市場(chǎng)攝像頭——該演示主要針對(duì)新興的汽車后裝市場(chǎng)中的攝像頭領(lǐng)域。它展示了設(shè)計(jì)人員如何通過(guò)FPGA本身的并行計(jì)算實(shí)現(xiàn)速度標(biāo)志牌檢測(cè)。在此示例中,在ECP5 FPGA上實(shí)現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)被訓(xùn)練讀取過(guò)往的交通指示牌信息。訓(xùn)練完成后,該攝像頭可在經(jīng)過(guò)交通標(biāo)志時(shí)檢測(cè)并顯示速度限制。
將聲音指令轉(zhuǎn)換為系統(tǒng)操作——該演示向設(shè)計(jì)人員展示了如何將聲音指令轉(zhuǎn)化為系統(tǒng)操作。這項(xiàng)功耗不足5mW的關(guān)鍵詞識(shí)別功能使用了集成到iCE40 UltraPlus FPGA的二值神經(jīng)網(wǎng)絡(luò)。示例描述了如何將數(shù)字麥克風(fēng)直連到萊迪思推理引擎,從而使用關(guān)鍵詞檢測(cè)實(shí)現(xiàn)“實(shí)時(shí)在線”的監(jiān)聽(tīng)功能。
用于面部跟蹤的目標(biāo)檢測(cè)解決方案——該演示探索了適用于面部跟蹤應(yīng)用、基于AI實(shí)現(xiàn)的目標(biāo)檢測(cè)解決方案。演示描述了使用萊迪思ECP5-85 FPGA進(jìn)行卷積神經(jīng)網(wǎng)路加速,其中8個(gè)卷積層在8個(gè)神經(jīng)網(wǎng)絡(luò)引擎中實(shí)現(xiàn)。該方案在萊迪思的嵌入式視覺(jué)開(kāi)發(fā)套件上獨(dú)立運(yùn)行,上電后在90 x 90 RGB輸入下以14fps運(yùn)行。ECP5的總功耗僅為0.85 W。
定制化設(shè)計(jì)服務(wù)
開(kāi)發(fā)團(tuán)隊(duì)通常需要設(shè)計(jì)服務(wù)合作伙伴的專業(yè)能力來(lái)協(xié)助開(kāi)發(fā)定制化解決方案。AI市場(chǎng)也不例外。為滿足這種需求,萊迪思與智能工廠、智慧城市、智能汽車、智能家居和移動(dòng)應(yīng)用等眾多領(lǐng)域的設(shè)計(jì)服務(wù)伙伴展開(kāi)了合作。例如,萊迪思經(jīng)認(rèn)證的合作伙伴之一VectorBlox是一家基于神經(jīng)網(wǎng)絡(luò)的推理解決方案開(kāi)發(fā)商。近來(lái),VectorBlox和萊迪思合作在iCE40 UltraPlus FPGA上用不到5000個(gè)LUT的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了人臉檢測(cè)應(yīng)用。該解決方案使用了開(kāi)源RISC V軟處理器和定制加速器,大大降低了功耗,同時(shí)縮短了響應(yīng)時(shí)間。
為了更快地在萊迪思FPGA中實(shí)現(xiàn)推理解決方案,開(kāi)發(fā)人員可能需要求助于具備神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和訓(xùn)練相關(guān)知識(shí)的設(shè)計(jì)服務(wù)專家。這些知識(shí)通常需要與Caffe和TensorFlow框架以及傳統(tǒng)的RTL設(shè)計(jì)經(jīng)驗(yàn)相結(jié)合。為了讓這些專業(yè)知識(shí)更易獲取,萊迪思推出了Lattice sensAI設(shè)計(jì)服務(wù)計(jì)劃,推薦設(shè)計(jì)服務(wù)公司,從而加速設(shè)計(jì),在萊迪思FPGA上實(shí)現(xiàn)深入學(xué)習(xí)應(yīng)用。這些公司提供開(kāi)發(fā)和訓(xùn)練網(wǎng)絡(luò)的專業(yè)知識(shí),且能開(kāi)發(fā)RTL實(shí)現(xiàn)特定應(yīng)用。
參與該計(jì)劃的第三方企業(yè)已經(jīng)與萊迪思進(jìn)行合作,展示了其在神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)、訓(xùn)練和硬件實(shí)施方面的強(qiáng)大實(shí)力。
結(jié)論
網(wǎng)絡(luò)邊緣計(jì)算革命蓄勢(shì)待發(fā),只有具備AI系統(tǒng)專長(zhǎng)的開(kāi)發(fā)人員方可駕輕就熟。隨著用戶尋求更高級(jí)別的智能,對(duì)于靠近IoT數(shù)據(jù)源的低功耗推理的需求將與日俱增。Lattice sensAI提供靈活、超低功耗、小尺寸和批量?jī)r(jià)格低的網(wǎng)絡(luò)邊緣優(yōu)化解決方案。萊迪思的超低功耗FPGA由廣泛的硬件平臺(tái)、軟IP、設(shè)計(jì)工具、參考設(shè)計(jì)和第三方專家提供支持,為您打開(kāi)通往成功最可靠、最快捷的途徑。
評(píng)論