決勝AI云端:“芯火”燎原看燧原
人工智能(AI)毫無疑問是當今一個炙手可熱的詞匯,當智能化在各行各業(yè)被津津樂道之時,AI就成為其核心創(chuàng)新技術(shù)的體現(xiàn),其中AI芯片更是“集萬千寵愛于一身”。本欄目曾經(jīng)對用戶端的AI芯片及其落地應用做過介紹[1],主要為語音識別和智能圖像處理,在這里要一直看到AI云端,這里同樣風光獨好。
對于日益豐富的AI應用場景不斷提高的算力需求是驅(qū)動AI云端芯片發(fā)展的動力,其所蘊藏的商機巨大。據(jù)權(quán)威機構(gòu)統(tǒng)計,AI算力需求每3個半月翻1倍,市場幾年內(nèi)將會從數(shù)十億變?yōu)閿?shù)百億美元。然而云端AI訓練芯片由國際巨頭所獨占的壁壘已經(jīng)成為束縛整個產(chǎn)業(yè)健康發(fā)展的問題。這塊堅冰已在松動,如火如荼的爭鋒來臨在即,由AI“中國芯”點起火焰已經(jīng)開始燃燒。升騰的烈火中浮現(xiàn)著不少本土公司的身影,其中上海燧原科技有限公司(Enflame)以紅色的火焰為企業(yè)形象標志,其云端AI訓練芯片格外令人矚目。筆者對燧原科技作為國產(chǎn)AI云端芯片新銳充滿好奇,特別是僅用與“摩爾定律”周期契合的18個月就取得豐碩成果而成為業(yè)內(nèi)佼佼者,于是前往上海張江,在張潤大廈與創(chuàng)始人兼CEO趙立東進行訪談。
趙立東首先談到AI芯片的3個分層:技術(shù)門檻最高的是最上層的云端訓練,中間是云端推斷,最下層是終端推理。針對不同AI應用場景的模型訓練只能在云端進行。目前,云端訓練的市場規(guī)模大于云端推斷。隨著AI技術(shù)的大面積落地,云端推斷的市場規(guī)模會逐漸超過云端訓練。這也意味著訓練效果越來越好,AI模型越來越成熟,應用落地越來越廣泛。
在云端AI訓練芯片被壟斷的局面下,下游的云端推斷和終端應用的發(fā)展必然受到阻礙。價格高企、本土技術(shù)支持不夠,以及生態(tài)不開放等因素禁錮著訓練端,使其下游推斷的落地受阻,限制了更多AI創(chuàng)新的涌現(xiàn)。
燧原科技所致力的目標就是努力打破國外壟斷,實現(xiàn)國產(chǎn)替代,使這個市場和產(chǎn)業(yè)良性發(fā)展。因此,燧原科技于2019年12月11日發(fā)布了首款“邃思”云端訓練芯片和“云邃”AI訓練加速卡及“馭算”計算及編程平臺,如圖1所示。
圖1 國產(chǎn)AI云端訓練芯片和加速卡及開發(fā)平臺
2 邃思“芯”火升騰的奧秘
后來者居上是需要有硬實力的,對此趙立東指出,GPU或CPU芯片的架構(gòu)原本就不是為AI而設計的,只有專為AI設計的架構(gòu)才有機會打破壟斷贏得市場,滿足AI爆發(fā)式增長的數(shù)據(jù)和算法模型帶來的算力需求?!板渌肌贬槍σ陨疃葘W習為代表的神經(jīng)網(wǎng)絡算法和模型,其主芯片DTU單元計算核心采用32個通用可擴展神經(jīng)元處理器(SIP)進行高速并行處理,其中每8個SIP組合成1個可擴展智能計算群(SIC)。SIC之間通過HBM實現(xiàn)高速互聯(lián),再利用片上調(diào)度算法,數(shù)據(jù)在搬遷中完成計算,實現(xiàn)SIP利用率最大化。SIP基于可重構(gòu)芯片設計理念,不僅具有高度并行化的特點,也可通過可編程的指令集適配現(xiàn)有及未來可能的AI算法。
邃思采用12 nm FinFET工藝和2.5D高級封裝技術(shù),集成了141億個晶體管。邃思芯片組成如圖2所示,其中,中間層用于布下密集的連線,采用的是自研的Interposer技術(shù)。
邃思DTU云端訓練芯片具有開放、通用、高性能特性,表現(xiàn)為如下4個方面。
1)世界領(lǐng)先的高精度算力:原生支持 FP32 精度的標量、向量、矩陣和卷積計算;FP32 最大算力20TFLOPS;這是業(yè)內(nèi)唯一支持 BF16的 芯片,算力達到80TFLOPS。
2)支持E級數(shù)據(jù)中心互聯(lián):200 GB/s 高速片間互聯(lián)總線;單節(jié)點最大 16 顆芯片互聯(lián);支持多節(jié)點擴展和分布式訓練平臺;支持 PCIe 4.0。
3)可定制化算子庫:支持深度學習常用算子、多種超越函數(shù);底層開放、按需定制。
4)支持模型深度優(yōu)化:支持混合精度、BF16 數(shù)據(jù)格式;模型遷移成本低。
圖2 邃思芯片組成圖
3 云燧加速卡打造“火的戰(zhàn)車”
圖3為云燧T10加速卡組成圖,底層為裝有邃思AI芯片的主板及背板,上面為ESL片間互聯(lián)層?;阱渌夹酒脑旗軹10訓練加速卡具有高算力、低功耗、強互聯(lián)等特色。完全自主研發(fā)的ESL互聯(lián)技術(shù),支持集群化的訓練,且無需專門的連接器和轉(zhuǎn)換器,從而有效降低成本,其創(chuàng)新的拓撲結(jié)構(gòu)設計可提供更加靈活的連接方式。
云燧T10加速卡是一個PCIe插卡,但包著厚實的金屬外殼,就像能超高速運行的AI“火的戰(zhàn)車”,適用包括FP32/FP16/BF16/Int8/Int16/Int32等豐富的數(shù)據(jù)類型,支持CNN、RNN、LSTM、BERT等常用訓練模型,也適合于圖像、數(shù)據(jù)流、語音等各種訓練場景的應用,使其出眾的性能躍然于全球云端AI芯片強手之林。
圖3 云燧T10加速卡組成圖
4 傳播AI之火的“馭算”生態(tài)平臺
從AI云端訓練邃思芯片之“火”,到云燧加速卡“火的戰(zhàn)車”,其疊加組合的分布式集群就可視為“火的列車”。由ESL互聯(lián)的創(chuàng)新背板互聯(lián)方案,可形成支持超級計算中心的AI體系。首先是PCIe單卡,4個1組通過ESL背板互聯(lián);然后是單服務器8卡ESL背板互聯(lián)的單機柜通過ESL線纜互聯(lián);再來則是通過標準RDMA跨RACK組建E級計算數(shù)據(jù)中心?;谠旗菁铀倏ǖ某?a class="contentlabel" href="http://cafeforensic.com/news/listbylabel/label/計算中心">計算中心組成如圖4所示。
為駕馭AI超級立體化“火的列車”,需要打造軟件平臺——“馭算”計算及編程平臺,與硬件產(chǎn)品配套,實現(xiàn)軟硬件的一體化解決方案。在AI芯片領(lǐng)域里,軟件與硬件地位同等重要,“馭算”既兼容TensorFlow和PyTorch等主流AI框架,也支持ResNet、Yolo、BERT等多種主流AI模型,可通過SDK提供深度定制。正在開發(fā)的編程語言模型,在對開發(fā)者有相對友好的語義的同時,也能給開發(fā)者提供途徑來實現(xiàn)靈活操控,更好地發(fā)揮硬件性能。同時針對國產(chǎn)AI框架的適配和支持工作正在進行中。
5 中國AI本土化之火正在燎原
趙立東談到燧原科技的創(chuàng)業(yè)初心就是 “做大芯片,拼硬科技”,目前已經(jīng)取得了階段性成果,第一代通用AI訓練芯片“邃思”成功發(fā)布并量產(chǎn)。對于未來的發(fā)展,他強調(diào)要“志存高遠,腳踏實地”。一方面,加速產(chǎn)品迭代和技術(shù)創(chuàng)新,持續(xù)軟件優(yōu)化并完善生態(tài)系統(tǒng);另一方面,堅持業(yè)務落地、規(guī)?;崿F(xiàn)盈利。唯有雙輪驅(qū)動,形成正向循環(huán),企業(yè)才有可持續(xù)發(fā)展的動力。
2020年3月國家提出加快新型基礎(chǔ)設施建設的戰(zhàn)略,5G和AI成為重點發(fā)展領(lǐng)域;7月國家又頒布了《新時期促進集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》。對于像燧原科技這樣的本土企業(yè)而言是極大的鼓舞,希望與政府和上下游商業(yè)伙伴一起攜手,密切合作,打破壟斷實現(xiàn)國產(chǎn)替代。就在拜訪之后的9月22日,燧原科技正式宣布第一代AI訓練加速卡“云燧T10”及其組成的多卡分布式訓練集群已在云數(shù)據(jù)中心落地,這是該產(chǎn)品和系統(tǒng)進入商用化階段的里程碑,標志著燧原躍升為業(yè)內(nèi)領(lǐng)先的以高性能AI訓練產(chǎn)品成功切入數(shù)據(jù)中心市場的“中國芯”公司,展現(xiàn)出AI本土化之火已呈現(xiàn)燎原之勢。
參考文獻:[1] 鄭小龍.人工智能探境科技之得“芯”應手[J].電子產(chǎn)品世界,2020(8):12-13.
注:本文來源于科技期刊《電子產(chǎn)品世界》2020年第10期,歡迎您寫論文時引用,并注明出處。
評論