阿里首款A(yù)I芯片含光800重磅發(fā)布,全球最強(qiáng)AI推理芯片如何練成?
上周,平頭哥以產(chǎn)品命名猜想為話題預(yù)告本周將發(fā)布重磅新品。2019年杭州云棲大會上,阿里巴巴集團(tuán)首席技術(shù)官兼阿里云智能總裁張建鋒發(fā)布了阿里的首款A(yù)I芯片含光800,該芯片是一款云端AI芯片,也是全球最高性能的AI推理芯片。含光800主要應(yīng)用于視覺場景,已經(jīng)在阿里巴巴集團(tuán)內(nèi)多個(gè)場景大規(guī)模應(yīng)用,其它企業(yè)可以通過阿里云獲得含光NPU的算力。
本文引用地址:http://cafeforensic.com/article/201909/405318.htm阿里巴巴集團(tuán)首席技術(shù)官兼阿里云智能總裁 張建鋒
據(jù)悉,含光為上古三大神劍之一,該劍含而不露,光而不耀,正如含光800帶來的無形卻強(qiáng)勁的算力。
含光800為何能打破記錄?
根據(jù)張建鋒的說法,在業(yè)界標(biāo)準(zhǔn)的ResNet-50測試中,含光800推理性能達(dá)到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
含光800不僅Resnet50的成績打破記錄,從設(shè)計(jì)到商用的速度也很快。張建鋒表示,平頭哥用大概一年半的時(shí)間實(shí)現(xiàn)了含光800從設(shè)計(jì)到商用。雷鋒網(wǎng)了解到,平頭哥用7個(gè)月完成了前端設(shè)計(jì),之后用3個(gè)月就成功流片。僅成立一年的平頭哥半導(dǎo)體為何這么快就能設(shè)計(jì)出云端AI芯片?
要知道,芯片作為典型的長周期產(chǎn)品,想加速芯片的商用,在硬件和軟件方面都需要有很強(qiáng)的實(shí)力,特別是在AI時(shí)代,軟硬一體化的重要性更加突顯。平頭哥就得益于阿里在軟硬件方面的積累,算法方面,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室過去兩年構(gòu)建了完整的算法體系,涵蓋語音智能、語言技術(shù)、機(jī)器視覺、決策智能等方向,并且取得多個(gè)世界領(lǐng)先水平的成果;硬件方面,阿里巴巴此前已在服務(wù)器、FPGA以及存儲等領(lǐng)域擁有多年研發(fā)經(jīng)驗(yàn),此外,平頭哥團(tuán)隊(duì)在體系結(jié)構(gòu)、編譯技術(shù)等領(lǐng)域擁有深厚的技術(shù)儲備。
含光800性能的突破得益于軟硬件的協(xié)同創(chuàng)新,芯片架構(gòu)方面,含光800采用創(chuàng)新的架構(gòu),針對深度學(xué)習(xí)中使用的大量權(quán)重參數(shù)和張量數(shù)據(jù),在支持稀疏壓縮與量化處理的基礎(chǔ)上,通過獨(dú)特設(shè)計(jì)的數(shù)據(jù)訪存與流水線處理技術(shù),大大減低了I/O需求和數(shù)據(jù)的搬移。NPU同時(shí)深度優(yōu)化了卷積,矩陣乘,向量計(jì)算和各種激活函數(shù),通過高有效的硬件資源調(diào)度和全并行的數(shù)據(jù)流處理,把AI運(yùn)算的性能和能效都推向極致。
其中,性能的提升必須解決內(nèi)存墻問題。所謂的內(nèi)存墻,是指采用采用馮諾依曼結(jié)構(gòu)的處理器,存儲和運(yùn)算處理分離,當(dāng)進(jìn)行深度神經(jīng)網(wǎng)絡(luò)處理時(shí),算力得到了提升,但大量讀寫運(yùn)行操作會受到帶寬限制,芯片的整體性能提升也同時(shí)受到限制。
平頭哥的做法是通過自研架構(gòu)大幅減少對內(nèi)存的訪問,在保證性能的情況下,把芯片功耗降到最低水平。具體而言,含光800會根據(jù)神經(jīng)網(wǎng)絡(luò)推理運(yùn)算特征,設(shè)計(jì)特定的硬件、高速連接的存儲結(jié)構(gòu)以及專用指令集,對內(nèi)存和計(jì)算單元實(shí)現(xiàn)高效組織管理,實(shí)現(xiàn)單條指令完成多個(gè)操作,提高計(jì)算效率和內(nèi)存訪問效率。
3個(gè)月發(fā)3款芯片新品,阿里“硬”了
阿里首款A(yù)I芯片發(fā)布之后,其從云端到終端的產(chǎn)品布局已經(jīng)十分明確。這些產(chǎn)品也都密集在最近幾個(gè)月發(fā)布,今年7月的阿里云上海峰會上,阿里巴巴集團(tuán)副總裁戚肖寧發(fā)布了高性能RISC-V架構(gòu)處理器玄鐵910。玄鐵910集成16個(gè)核心,主頻2.5GHz,采用12級亂序流水線,最大支持8MB二級緩存,搭載AI增強(qiáng)的向量計(jì)算引擎,可用在人工智能加速器、網(wǎng)絡(luò)通信和自動駕駛等領(lǐng)域。現(xiàn)場公布的數(shù)據(jù)顯示,玄鐵910較業(yè)界主流芯片性能提高40%,較標(biāo)準(zhǔn)指令性能高出20%。
8月,平頭哥又發(fā)布SoC芯片平臺“無劍”,無劍平臺由SoC架構(gòu)、處理器、各類IP、操作系統(tǒng)、軟件驅(qū)動和開發(fā)工具等模塊構(gòu)成,面向AIoT提供的集芯片架構(gòu)、基礎(chǔ)軟件、算法與開發(fā)工具于一體的整體解決方案。根據(jù)官方的說法,無劍能夠幫助芯片設(shè)計(jì)企業(yè)將設(shè)計(jì)成本降低50%,設(shè)計(jì)周期壓縮50%。
需要指出,7月發(fā)布的玄鐵910是基礎(chǔ)單元處理器IP,無劍是芯片設(shè)計(jì)平臺,所以含光800是阿里的首款A(yù)I芯片。這也意味著,阿里的C-Sky系列、玄鐵系列AIoT終端芯片IP,一站式芯片設(shè)計(jì)平臺無劍,以及最新發(fā)布的云端AI芯片構(gòu)建了阿里端云一體的芯片生態(tài),平頭哥端云一體全棧芯片產(chǎn)品家族雛形已現(xiàn)。
更值得關(guān)注的是,端側(cè)的7款C-Sky系列嵌入式CPU IP核已得到大規(guī)模量產(chǎn)驗(yàn)證,授權(quán)客戶超100家,累計(jì)銷售超十億顆,應(yīng)用于機(jī)器視覺、工業(yè)控制、車載終端、移動通信和信息安全等領(lǐng)域。
RISC-V架構(gòu)的玄鐵處理器以及無劍SoC平臺也已有客戶,包括人工智能企業(yè)云天勵飛、老牌芯片公司炬芯科技等。
含光800也已經(jīng)實(shí)現(xiàn)了大規(guī)模應(yīng)用,應(yīng)用于阿里巴巴集團(tuán)內(nèi)多個(gè)場景,例如視頻圖像識別/分類/搜索、城市大腦等,未來還可應(yīng)用于醫(yī)療影像、自動駕駛等領(lǐng)域。同時(shí),阿里云作為全球前三的云服務(wù)提供商,含光的能力將通過云服務(wù)對外提供。張建鋒現(xiàn)場宣布,基于含光800的AI云服務(wù)也正式上線。
另外,在生態(tài)建設(shè)方面,平頭哥還將成立芯片開放社區(qū)。
不僅如此,平頭哥還在研發(fā)用于阿里云神龍服務(wù)器的SoC專用芯片。未來,阿里還將進(jìn)一步完善產(chǎn)品形態(tài),推出包括云端AI訓(xùn)練芯片和終端AI推理芯片,滿足更多場景的算力需。
自研AI芯片的終極目的是什么?
阿里從云端到終端AI芯片的布局已經(jīng)明確,并且也已經(jīng)有不少客戶,這是否意味未來阿里不僅不需要購買芯片,還可能替代其它芯片公司?答案是否定的。在這一輪的AI浪潮中,我們看到無論是國外的谷歌、Amazon、Facebook還是國內(nèi)的阿里,這些強(qiáng)于軟件的科技巨頭們都在積極研發(fā)AI芯片。
至于其中的原因,Cadence首席執(zhí)行官、華登國際創(chuàng)始人陳立武此前接受雷鋒網(wǎng)采訪時(shí)表示:“科技巨頭積極布局AI是因?yàn)樗麄儾幌M浜螅驗(yàn)樗麄兌加写罅康臄?shù)據(jù)。當(dāng)然,科技公司開始做芯片并不意味著傳統(tǒng)的芯片廠商會被取代,科技公司希望在一些應(yīng)用上用自主研發(fā)的芯片來提升效率。”
事實(shí)也確實(shí)如此,就拿阿里來說,其業(yè)務(wù)橫跨電商、金融、物流、云計(jì)算、大數(shù)據(jù)、全球化等場景,用戶規(guī)模龐大,對算力的需求更高,挑戰(zhàn)也更大。傳統(tǒng)CPU、GPU和FPGA難以滿足所有需求,并且面臨成本和功耗挑戰(zhàn)。定制化的ASIC芯片能夠?qū)崿F(xiàn)更高的性能同時(shí)兼具更低功耗,因此科技巨頭們基于對自身業(yè)務(wù)和需求的了解,紛紛開始自主研發(fā)AI芯片,希望在保持領(lǐng)先性的同時(shí),降低整體計(jì)算成本。
從全球范圍看,谷歌TPU是全球科技企業(yè)從軟變硬的代表。此次含光800的發(fā)布及商用,表明阿里的優(yōu)勢也不再只是在軟件領(lǐng)域,在AI芯片的加持下,未來阿里的優(yōu)勢也將是軟硬一體的優(yōu)勢。
為了實(shí)現(xiàn)這一目標(biāo),阿里幾年前就開始了布局。2017年云棲大會上,阿里成立達(dá)摩院,這是阿里在全球多點(diǎn)設(shè)立的科研機(jī)構(gòu),立足基礎(chǔ)科學(xué)、顛覆性技術(shù)和應(yīng)用技術(shù)的研究。達(dá)摩院由全球建設(shè)的自主研究中心、高校聯(lián)合實(shí)驗(yàn)室,全球開放研究計(jì)劃三大部分組成,涵蓋量子計(jì)算、機(jī)器學(xué)習(xí)、基礎(chǔ)算法、網(wǎng)絡(luò)安全、視覺計(jì)算、自然語言處理、下一代人機(jī)交互、芯片技術(shù)、傳感器技術(shù)、嵌入式系統(tǒng)等,涵蓋機(jī)器智能、智聯(lián)網(wǎng)、金融科技等多個(gè)產(chǎn)業(yè)領(lǐng)域。
平頭哥得到達(dá)摩院和阿里云的軟實(shí)力加持,基于達(dá)摩院的算法能力,才能打破了算法和硬件之間的鴻溝,基于阿里云飛天云平臺的優(yōu)勢,得以快速形成了端云一體芯片生態(tài)。
如今,阿里自主研發(fā)芯片的目標(biāo)也已經(jīng)部分達(dá)成。根據(jù)云棲大會的現(xiàn)場演示,在城市大腦中實(shí)時(shí)處理杭州主城區(qū)交通視頻,需要40顆傳統(tǒng)GPU,延時(shí)為300ms,使用含光800僅需4顆,延時(shí)降至150ms。拍立淘商品庫每天新增10億商品圖片,使用傳統(tǒng)GPU算力識別需要1小時(shí),使用含光800后可縮減至5分鐘。
顯然,平頭哥的目的并非是賣芯片,平頭哥還會延續(xù)了母體阿里巴巴集團(tuán)“讓天下沒有難做生意”的愿景,開辟了全新的商業(yè)模式,即平頭哥模式(以無劍平臺為核心),為企業(yè)提供普惠算力。
另據(jù)介紹,針對AIoT市場有強(qiáng)應(yīng)用驅(qū)動和場景碎片化等特點(diǎn),芯片公司按照傳統(tǒng)的方式設(shè)計(jì)芯片很難去適應(yīng)未來的需求,平頭哥希望通過端云一體芯片生態(tài)為各行業(yè)提供普惠算力。
張建鋒說:“在全球芯片領(lǐng)域,阿里巴巴是一個(gè)新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走?!?/p>
雷鋒網(wǎng)小結(jié)
作為科技巨頭,阿里此前更加擅長軟件,并且擁有大量的數(shù)據(jù)。在正在到來的以數(shù)據(jù)為中心的時(shí)代,能夠借助AI更快挖掘出數(shù)據(jù)的價(jià)值將成為科技巨頭們繼續(xù)保持領(lǐng)先優(yōu)勢的關(guān)鍵之一。因此,無論是國外還是國內(nèi),科技巨頭們紛紛開始投入巨大的資源進(jìn)入技術(shù)、資金、人才都非常密集的芯片產(chǎn)業(yè),阿里首款A(yù)I芯片的推出,意味著阿里已經(jīng)不再只擅長軟件,在其廣泛的應(yīng)用場景需求的支撐下,阿里將能夠?qū)崿F(xiàn)硬件的快速迭代的完善,在云端和終端進(jìn)一步釋放出軟硬結(jié)合的優(yōu)勢。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
評論