支持嵌入式視覺神經(jīng)網(wǎng)絡(luò)的數(shù)字信號處理器(DSP)
本文引用地址:http://cafeforensic.com/article/201706/360264.htm
Cadence IP事業(yè)部Tensilica Vision DSP產(chǎn)品系列營銷總監(jiān) Pulin Desai
在手機、安防監(jiān)控、汽車、增強現(xiàn)實/虛擬現(xiàn)實(AR/VR)領(lǐng)域,無論正在開發(fā)的還是計劃中的各類嵌入式應(yīng)用都涉及到了神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)應(yīng)用正在呈爆炸式增長。神經(jīng)網(wǎng)絡(luò)領(lǐng)域創(chuàng)新力非凡,其自身架構(gòu)不斷更新?lián)Q代,新網(wǎng)絡(luò)、新應(yīng)用和市場也層出不窮。隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用的日益深入和復(fù)雜,對計算性能的要求也與日俱增。短短不到4年的時間里,MAC/幀的計算需求大約增長了16倍(見圖1)。
圖1 MAC/幀的計算需求的增長
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在設(shè)備中嵌入處理器(而非使用CPU和GPU)的需求不斷增加。然而,網(wǎng)絡(luò)的處理能力和運行速度并沒有跟上神經(jīng)網(wǎng)絡(luò)應(yīng)用的發(fā)展要求,這一沖突在視覺應(yīng)用領(lǐng)域尤為明顯。截至目前,滿足神經(jīng)網(wǎng)絡(luò)應(yīng)用需求只能借助傳統(tǒng)數(shù)據(jù)中心的資源。然而,隨著安全性和延遲成為重要的考慮因素,通過嵌入式系統(tǒng)實現(xiàn)神經(jīng)網(wǎng)絡(luò)愈發(fā)普遍,以實現(xiàn)實時數(shù)據(jù)處理。雖然大部分的神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以在線下實現(xiàn),但使用神經(jīng)網(wǎng)絡(luò)的應(yīng)用必須將其嵌入至系統(tǒng)中。
所有嵌入式應(yīng)用中,AR/VR或混合現(xiàn)實面臨著獨有的挑戰(zhàn)。上述領(lǐng)域的設(shè)備大多屬于智能頭盔、耳機或智能眼鏡等可穿戴設(shè)備,依靠電池供電,能耗時選擇神經(jīng)網(wǎng)絡(luò)解決方案時最重要的考量之一。AR/VR應(yīng)用的另一個重要需求是減小延遲,所以神經(jīng)網(wǎng)絡(luò)必須實現(xiàn)設(shè)備嵌入。所有這些設(shè)備都需要某種圖像識別、手勢識別、立體攝像分割、3D傳感、頭部跟蹤、眼球偵測和眼球跟蹤能力?,F(xiàn)在的成像技術(shù)多種多樣,但隨著時間的推移,其中某些功能,如語義環(huán)境理解、手勢識別或圖像識別,將都可以通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)。除了成像/視覺神經(jīng)網(wǎng)絡(luò),這些設(shè)備還對聲音/音頻神經(jīng)網(wǎng)絡(luò)提出了要求,以接收語音指令。
在技術(shù)環(huán)境瞬息萬變的今天,AR/VR設(shè)備制造商需要現(xiàn)在立即為2019年、2020年甚至更晚上市的產(chǎn)品選定平臺。引入新的神經(jīng)網(wǎng)絡(luò)后,由于其架構(gòu)不斷變化,我們無法確保當(dāng)前有效的工作平臺在未來系統(tǒng)中的有效性。此外,這些應(yīng)用還要求實現(xiàn)低延遲和低功耗,這一點也尤為重要;但鑒于神經(jīng)網(wǎng)絡(luò)需求的不斷增長和這一趨勢的不斷進(jìn)展,我們?nèi)孕璞WC一定的靈活度和前瞻性。
目前,實現(xiàn)神經(jīng)網(wǎng)絡(luò)有兩個主要選擇:CPU/GPU或使用硬件加速器及匹配的成像DSP。這兩個選擇都可以各自解決設(shè)計人員面臨的一些挑戰(zhàn);但又都在開發(fā)的簡易程度、功耗效率、延遲、未來升級空間或性能方面有一些令人不滿意的折衷。硬件加速器與匹配的成像DSP是嵌入式設(shè)備的選擇之一,但這一組合效率低下,會產(chǎn)生不必要的功耗。除了開發(fā)困難,軟件還必須在DSP和加速器之間進(jìn)行分區(qū)。僅卸載卷積層會顯著增加數(shù)據(jù)傳送負(fù)擔(dān),并影響效率。另外,硬件在流片時便已固定,所以這些加速器將不具備未來的升級空間。
符合嵌入式應(yīng)用需要的神經(jīng)網(wǎng)絡(luò)DSP解決方案要滿足以下要求:易于開發(fā)、能夠處理龐大的數(shù)據(jù)量、未來具有升級空間、有效地使用能源并實現(xiàn)延遲最小化。
Cadence解決方案:Tensilica Vision C5數(shù)字信號處理器(DSP)
作為面向視覺和融合傳感器應(yīng)用優(yōu)化的解決方案,Cadence Tensilica Vision C5 DSP是業(yè)界首款致力于神經(jīng)網(wǎng)絡(luò)處理并適用于多處理器架構(gòu)的DSP。這一解決方案實現(xiàn)了前所未有的速度和低功耗,并滿足高階神經(jīng)網(wǎng)絡(luò)技術(shù)的全部要求。
該解決方案以近20年的Xtensa多處理器經(jīng)驗為基礎(chǔ),具有存儲器結(jié)構(gòu)共享、允許中斷、同步隊列和同步多處理器調(diào)試等特性。Vision C5 DSP可以實現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計算加速(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層功能。因此,主視覺處理DSP的能力得以釋放,獨立運行圖像增強應(yīng)用程序;而Vision C5 DSP則運行推理任務(wù)。通過移除硬件加速器的冗余數(shù)據(jù)傳輸,Vision C5 DSP的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。
Vision C5 DSP具備1TMAC /秒的計算能力,可以滿足神經(jīng)網(wǎng)絡(luò)不斷增長的計算要求;并且計算精確,擁有多核心設(shè)計架構(gòu),支持多TMAC嵌入式解決方案。Vision C5 DSP針對的是經(jīng)常運行多個神經(jīng)網(wǎng)絡(luò)的應(yīng)用。由于其可編程特性,該解決方案具有未來升級空間,并且能夠隨著設(shè)計的改變而支持新分層。
視覺處理系統(tǒng)必須設(shè)計全面,適用于所有平臺,并同步開發(fā)硬件和軟件。為了開發(fā)這項技術(shù),設(shè)計人員必須使用支持高效算法的工具和IP,采用的硬件平臺也需滿足每個應(yīng)用程序的目標(biāo)成本和功耗要求。從系統(tǒng)層面來看,Cadence可以支持嵌入式視覺設(shè)備的設(shè)計人員盡可能最快速的高效地開發(fā)變革性產(chǎn)品。
評論