華夏芯推出全新架構(gòu)的人工智能專用處理器內(nèi)核
作者/華夏芯(北京)通用處理器技術(shù)有限公司創(chuàng)始人、董事長(zhǎng) 李科奕
2016年7月,人工智能首次納入《“十三五”國(guó)家科技創(chuàng)新規(guī)劃》;2017年7月20日,國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,將人工智能上升國(guó)家戰(zhàn)略,2018年李克強(qiáng)總理在政府工作報(bào)告中,進(jìn)一步強(qiáng)調(diào)“產(chǎn)業(yè)級(jí)的人工智能應(yīng)用”。短短2年之內(nèi),伴隨數(shù)據(jù)、計(jì)算力、算法和網(wǎng)絡(luò)設(shè)施等快速迭代,人工智能已成為中國(guó)經(jīng)濟(jì)發(fā)展新舊動(dòng)能轉(zhuǎn)換的重要引擎。安防領(lǐng)域一直被認(rèn)為是人工智能最先落地的行業(yè),隨著國(guó)內(nèi)“智慧城市”、“平安城市”的不斷建設(shè),在大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)的支撐下,安防向城市化、綜合化、主動(dòng)安防方向發(fā)展,智能安防成為當(dāng)前發(fā)展的主流趨勢(shì),產(chǎn)業(yè)規(guī)模空前龐大。之前制約高清安防產(chǎn)業(yè)發(fā)展的云端AI功耗大、實(shí)時(shí)性不強(qiáng)、缺乏安全保障等網(wǎng)絡(luò)瓶頸問題都在悄然緩解,智能安防正在演變?yōu)橹悄堋⒏咔?、無線、預(yù)警等相互融合、協(xié)調(diào)發(fā)展的多種形態(tài)的綜合產(chǎn)業(yè)。
除開智能安防行業(yè),智能駕駛正在成為另一個(gè)高速發(fā)展以及炙手可熱的人工智能的典型應(yīng)用場(chǎng)景。目前汽車產(chǎn)業(yè)呈現(xiàn)的“新四化”(即電動(dòng)化、網(wǎng)聯(lián)化、智能化、共享化)給人工智能的計(jì)算、存儲(chǔ)、數(shù)據(jù)和通信等方方面面都帶來了巨大挑戰(zhàn),車用數(shù)據(jù)處理量呈指數(shù)型增長(zhǎng),車載計(jì)算芯片平臺(tái)逐漸走向低功耗與高浮點(diǎn)計(jì)算能力。
以智能駕駛和智能安防為例,“云邊結(jié)合”正逐步取代“中心分析”成為AI應(yīng)用發(fā)展的趨勢(shì)。針對(duì)不同人工智能應(yīng)用的場(chǎng)景的AI終端芯片有望在今后數(shù)年內(nèi)成為芯片廠商的主戰(zhàn)場(chǎng)。云端的計(jì)算需求主要是支持海量數(shù)據(jù)下的計(jì)算開銷。因此,由超級(jí)性能的CPU、GPU、FPGA、專用加速器組成的超高計(jì)算性能的芯片組成為主要的芯片平臺(tái)。在云端芯片市場(chǎng),Intel 約占71%、英偉達(dá)約占16%的市場(chǎng)。而終端側(cè)的計(jì)算需求更多的是要考慮的是有限功耗下的系統(tǒng)開銷。因此,高性能、低功耗的CPU、GPU、DSP、專用芯片組成的高集成度的SoC芯片成為首選。在這一市場(chǎng),Intel、英偉達(dá)并無無優(yōu)勢(shì),相反ARM、Ceva、華夏芯這樣的公司有優(yōu)勢(shì)。
面對(duì)這一趨勢(shì),即華夏芯公司立足于為其客戶的芯片定制提供完整的包括CPU、DSP和人工智能在內(nèi)的系列內(nèi)核和完整解決方案。華夏芯公司作為少數(shù)具備全系列處理器內(nèi)核設(shè)計(jì)能力的高科技企業(yè),繼之前陸續(xù)發(fā)布全自主64位的CPU和DSP內(nèi)核方案,并在嵌入式處理器領(lǐng)域率先引入了可變長(zhǎng)矢量處理(Variable Length Vector,VLV)技術(shù)后,于2018年初正式向業(yè)界公開了其全新架構(gòu)的嵌入式人工智能專用處理器的內(nèi)核方案,及全套神經(jīng)網(wǎng)絡(luò)專用處理的完整解決方案。
新年伊始,華夏芯公司正式向業(yè)界公開了其全新架構(gòu)的嵌入式人工智能專用處理器的內(nèi)核方案。作為少數(shù)具備全系列處理器內(nèi)核設(shè)計(jì)能力的高科技企業(yè),華夏芯公司之前已經(jīng)陸續(xù)發(fā)布了其自主設(shè)計(jì)的64位體系的CPU(Central Processing Unit)和DSP(Digital Signal Processor )內(nèi)核方案,首次在嵌入式處理器領(lǐng)域引入了可變長(zhǎng)矢量處理(Variable Length Vector,VLV)技術(shù)。因此,本次針對(duì)人工智能專用處理器內(nèi)核方案的公開發(fā)布,進(jìn)一步展露了華夏芯在人工智能領(lǐng)域的龐大戰(zhàn)略,即華夏芯公司立足于為其客戶的芯片定制提供完整的包括CPU,DSP和人工智能在內(nèi)的系列內(nèi)核,并希望在芯片整體性能,功耗,成本,編程,生態(tài)和開發(fā)周期方面占據(jù)領(lǐng)先的位置。
華夏芯致力于人工智能的專用可編程處理器內(nèi)核的設(shè)計(jì)與授權(quán),可以廣泛應(yīng)用于嵌入式人工智能與服務(wù)器側(cè)的芯片設(shè)計(jì)與加速,高效率地解決與智能預(yù)測(cè)和智能推理等有關(guān)的方方面面。雖然華夏芯的人工智能方案可以運(yùn)用到相當(dāng)多的領(lǐng)域,但是,當(dāng)前最為引人注目的應(yīng)用當(dāng)以智能安防、無人駕駛等應(yīng)用領(lǐng)域?yàn)橹饕獰狳c(diǎn)。在人工智能的支撐下,高清安防正在快步邁進(jìn)全民、全覆蓋安防的嶄新時(shí)代,產(chǎn)業(yè)規(guī)??涨褒嫶?,之前制約高清安防產(chǎn)業(yè)發(fā)展的網(wǎng)絡(luò)瓶頸問題悄然緩解,高清安防正在演變?yōu)橹悄?、高清、無線、預(yù)警等相互融合、協(xié)調(diào)發(fā)展的多種形態(tài)的綜合產(chǎn)業(yè)。和智能安防行業(yè)類似,無人駕駛正在成為另外一個(gè)平行、高速發(fā)展以及炙手可熱的人工智能的典型應(yīng)用。有人預(yù)測(cè),2020年將成為發(fā)展無人駕駛的重要節(jié)點(diǎn),產(chǎn)業(yè)生態(tài)初步成型,產(chǎn)業(yè)容量巨大,已經(jīng)成為全球汽車行業(yè)與消費(fèi)電子行業(yè)巨頭都不能放下的產(chǎn)業(yè)高地和必爭(zhēng)之地。
上述發(fā)展趨勢(shì)給人工智能的計(jì)算、存儲(chǔ)、數(shù)據(jù)和通信等方方面面都帶來了巨大挑戰(zhàn)。比如,高維度、適應(yīng)稀疏結(jié)構(gòu)網(wǎng)絡(luò)的高效并行計(jì)算,高密度、低成本和低功耗的大容量存儲(chǔ),完整或者大致完整的現(xiàn)場(chǎng)數(shù)據(jù)的收集與加工,帶寬高、時(shí)延小、運(yùn)營(yíng)費(fèi)用低的寬帶網(wǎng)絡(luò)覆蓋,等等都已經(jīng)成為影響或者制約人工智能在相關(guān)行業(yè)快速發(fā)展的卡口瓶頸。為此,在大力發(fā)展針對(duì)神經(jīng)網(wǎng)絡(luò)的新型架構(gòu)的專用處理器的同時(shí),還要加大力氣在神經(jīng)網(wǎng)絡(luò)的原創(chuàng)理論與方法方面下功夫,力爭(zhēng)形成理論和實(shí)踐并駕齊驅(qū)的雙創(chuàng)局面。
正是在這樣的背景情況下,華夏芯正式推出了其自主設(shè)計(jì)的全套神經(jīng)網(wǎng)絡(luò)專用處理的完整解決方案。
縱觀華夏芯本次推出的人工智能專用處理器內(nèi)核方案,不少地方的設(shè)計(jì)很有特點(diǎn):
1.采用了與眾不同的異構(gòu)多核架構(gòu)。人工智能的計(jì)算與存儲(chǔ)由多種環(huán)節(jié)組成,而且他們的屬性各不相同,傳統(tǒng)的單核處理器集成硬件加速器的做法基本上與人工智能的多方面需求不能完全吻合。為此,采用并發(fā)、異構(gòu)的多核協(xié)同架構(gòu),將為人工智能的系統(tǒng)管理和數(shù)據(jù)處理奠定牢固的基礎(chǔ),這一點(diǎn)是非常重要的。
2.兼具處理器和硬件加速器的優(yōu)點(diǎn)。類似于CPU的傳統(tǒng)處理器架構(gòu)可以確保編程方面的靈活性,但不能完全滿足人工智能張量處理在專用計(jì)算和存儲(chǔ)方面大數(shù)據(jù)量實(shí)時(shí)處理的需求;華夏芯人工智能專用處理器同時(shí)采用了類似硬件加速器的技術(shù)完成大數(shù)據(jù)量的批量處理,加速效率非常高。
3.在位長(zhǎng)方面僅支持八位與十六位。人工智能算法的動(dòng)態(tài)范圍依據(jù)網(wǎng)絡(luò)規(guī)模,分類多少呈現(xiàn)完全不同的特征,為此,多種位長(zhǎng)的設(shè)置有利于提升處理性能,降低處理功耗,倍增存儲(chǔ)效率。十六位半精度浮點(diǎn)的選擇已經(jīng)完全可以覆蓋人工智能前端數(shù)據(jù)處理和存儲(chǔ)的動(dòng)態(tài)范圍的需求,這一點(diǎn)正在成為嵌入式人工智能領(lǐng)域的趨勢(shì)。
4.在內(nèi)核系統(tǒng)管理方面實(shí)現(xiàn)全自主。很多人以為,只要把人工智能的數(shù)據(jù)處理搞定了,頂多加上硬件定制的數(shù)據(jù)壓縮也就可以了。其實(shí)不然,人工智能的很多特性呈現(xiàn)運(yùn)行時(shí)(runtime)的動(dòng)態(tài)特性,需要相對(duì)應(yīng)的系統(tǒng)和資源管理方面的能力很強(qiáng)。在這方面,華夏芯的異構(gòu)多核并發(fā)的架構(gòu)做得很好,可以完美地解決這個(gè)問題。
5.在可編程與算法實(shí)現(xiàn)定制上很強(qiáng)。大家都說,人工智能現(xiàn)在還在發(fā)展的初期,很多東西都處在不確定狀態(tài)。但同一時(shí)期的人工智能算法在計(jì)算和存儲(chǔ)架構(gòu)上卻基本上是類似的。華夏芯專用處理器的系統(tǒng)架構(gòu)正是這樣的基礎(chǔ)上抽象設(shè)計(jì)出來的,其在可編程性和算法定制方面所蘊(yùn)含的優(yōu)勢(shì)一般來說遠(yuǎn)遠(yuǎn)強(qiáng)于其它同類芯片產(chǎn)品?;蛘哒f,其生命周期是要遠(yuǎn)遠(yuǎn)長(zhǎng)于其它同類定制芯片,一款產(chǎn)品可以適應(yīng)很多算法的優(yōu)化定制的需求。
6.在指令架構(gòu)和微架構(gòu)上擴(kuò)展性好。伴隨著人工智能算法的不斷創(chuàng)新,應(yīng)用場(chǎng)景的豐富多彩,可以預(yù)知,好的人工智能專用處理器的指令架構(gòu)和微架構(gòu)一定是與時(shí)俱進(jìn)的,因此,架構(gòu)擴(kuò)展是不是方便快捷,也是度量專用處理器的關(guān)鍵指標(biāo)。這方面,華夏芯專用處理器的層次感和擴(kuò)展性是比較出色的,從一開始就支持對(duì)人工智能和控制指令的能力擴(kuò)展。
7.在片上系統(tǒng)集成路線方面很靈活。華夏芯的人工智能專用處理器的自主管理與控制能力很強(qiáng),不需要外配實(shí)時(shí)性很強(qiáng)的CPU等主控單元,因此,在SOC等芯片集成中表現(xiàn)得相對(duì)簡(jiǎn)單而靈活。這一點(diǎn)與當(dāng)前很多解決方案都完全不同,不僅僅便于片上集成,而且自洽性強(qiáng),總體性能更加突出。
8.針對(duì)主流開源后臺(tái)實(shí)現(xiàn)無縫對(duì)接。毫無例外,當(dāng)前主流的開源訓(xùn)練庫和開源訓(xùn)練平臺(tái),諸如,CaffeNet, TensorFlow等,華夏芯的專用處理器都是可以無縫對(duì)接的。
根據(jù)華夏芯公司提供的最新時(shí)間表,目前,其已經(jīng)啟動(dòng)對(duì)全球芯片設(shè)計(jì)企業(yè)的內(nèi)核授權(quán),并接收客戶委托的芯片設(shè)計(jì)服務(wù)需求,代客戶設(shè)計(jì)采用華夏芯內(nèi)核的系統(tǒng)芯片。預(yù)計(jì)2018年下半年第一款全部采用華夏芯CPU/DSP/人工智能處理器內(nèi)核的量產(chǎn)芯片開始下線,進(jìn)入市場(chǎng)。
評(píng)論