存算一體超異構(gòu),實(shí)現(xiàn)更大的AI算力和更高的能效比。編輯 | GACS
9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬分享了題為《存算一體超異構(gòu)AI大算力芯片破局大模型時(shí)代“芯”挑戰(zhàn)》的主題演講。熊大鵬提出,大模型時(shí)代下的“芯”挑戰(zhàn),比起算力如何增長(zhǎng),更大的問(wèn)題在于數(shù)據(jù)搬運(yùn)能力的剪刀差越來(lái)越大。數(shù)據(jù)顯示,計(jì)算能力與數(shù)據(jù)搬運(yùn)之間的鴻溝,大概以每年50%的速率擴(kuò)大。大模型出現(xiàn)后,數(shù)據(jù)訪存在整個(gè)計(jì)算周期里的占比,達(dá)到了95%以上甚至更高。億鑄科技認(rèn)為,隨著AI應(yīng)用進(jìn)入到2.0時(shí)代,要解決AI計(jì)算芯片面臨的諸多挑戰(zhàn),關(guān)鍵在于回歸阿姆達(dá)爾定律并成功破除“存儲(chǔ)墻”。據(jù)悉,億鑄科技原型技術(shù)驗(yàn)證(POC)芯片已回片,并成功點(diǎn)亮。該P(yáng)OC是首顆基于ReRAM的面向數(shù)據(jù)中心、云計(jì)算、自動(dòng)駕駛等場(chǎng)景的存算一體矩陣POC,能效比超過(guò)預(yù)期表現(xiàn),進(jìn)一步驗(yàn)證了公司的技術(shù)實(shí)力和市場(chǎng)潛力。以下為熊大鵬的演講實(shí)錄:大家好!我去年也參加了AI芯片峰會(huì),但今年情況不一樣,因?yàn)榻衲甏竽P偷幕鸨o人工智能芯片等各方面都帶來(lái)了巨大的變化。下面我將介紹億鑄科技存算一體超異構(gòu)AI大算力芯片怎么去應(yīng)對(duì)大模型時(shí)代的“芯”挑戰(zhàn)。
01.數(shù)據(jù)搬運(yùn),大模型時(shí)代的“芯”挑戰(zhàn)
大模型的參數(shù)規(guī)模,像GPT-3目前是1750億,未來(lái)可能將會(huì)迎來(lái)幾倍、幾十倍、上百倍的增長(zhǎng)。這樣的增長(zhǎng)帶來(lái)的好處是,大模型的容量、智能等各方面將會(huì)超過(guò)人的大腦。但與此同時(shí),大模型時(shí)代也對(duì)我們提出了很多挑戰(zhàn)跟需求。第一,算力如何提升。目前來(lái)說(shuō),人們針對(duì)大模型的芯片制造工藝或是其他各方面投入基本都已經(jīng)到了極限。第二,大模型對(duì)計(jì)算能耗的需求非常大。AMD CEO蘇姿豐說(shuō)過(guò),如果沒(méi)有新的技術(shù)出現(xiàn),按照目前的計(jì)算效率,12年以后,也就是2035年,每一臺(tái)Zetta級(jí)別的超級(jí)計(jì)算機(jī)所需要的能耗將會(huì)相當(dāng)于半個(gè)核電站。從算力的角度來(lái)說(shuō),支撐底層算力的摩爾定律現(xiàn)在幾近終結(jié)。但是我們的模型越來(lái)越大,算法越來(lái)越復(fù)雜,對(duì)算力的要求也越來(lái)越高,這將是一個(gè)很大的挑戰(zhàn)。AI芯片,或者說(shuō)大算力AI芯片,將來(lái)的路該怎么走?除了算力以外還有一個(gè)更大的問(wèn)題——數(shù)據(jù)搬運(yùn)能力的剪刀差越來(lái)越大。基于摩爾定律,算力每年大概以60%-70%的速率提升。但是對(duì)于數(shù)據(jù)搬運(yùn),無(wú)論是從外部的存儲(chǔ)器搬運(yùn)到芯片內(nèi)部,還是芯片內(nèi)部的數(shù)據(jù)總線,其物理線速度的提升基本是每年10%以內(nèi)。這就導(dǎo)致計(jì)算能力與數(shù)據(jù)搬運(yùn)之間的鴻溝,大概以每年50%的速率擴(kuò)大。在過(guò)去十年,單位計(jì)算力所需要和所能獲取的數(shù)據(jù)搬運(yùn)帶寬,差距擴(kuò)大了3倍。對(duì)大模型來(lái)說(shuō),其實(shí)問(wèn)題的根源就在于,怎么把數(shù)據(jù)不被堵塞地從外部搬到內(nèi)部。下圖這個(gè)模型,我已經(jīng)在很多地方講過(guò)。這里的F值,指的是數(shù)據(jù)訪存在整個(gè)計(jì)算周期里的占比。在過(guò)去存算分離的馮·諾伊曼架構(gòu)下,做AI芯片或是跟AI芯片相關(guān)的應(yīng)用時(shí),F(xiàn)值就已經(jīng)達(dá)到80%-90%。這意味著大量的能耗是卡在數(shù)據(jù)搬運(yùn)訪存上的,造成了性能瓶頸。在大模型的時(shí)代背景下,F(xiàn)值更是能達(dá)到95%。這意味著如果數(shù)據(jù)搬運(yùn)的速度不提升,即使我們將來(lái)用更好的工藝去獲取更高的算力,對(duì)實(shí)際性能提升的百分比其實(shí)非常有限,可能只有10%-20%。這也是為什么到今天,更多的公司開始把注意力集中在解決數(shù)據(jù)搬運(yùn)的問(wèn)題上,比方說(shuō)大量地采用HBM、 3D RAM封裝技術(shù)等等。這些解決方案會(huì)帶來(lái)更好的片間互連、板間互連,能夠比較有效地去解決數(shù)據(jù)搬運(yùn)問(wèn)題,從而非常有效地提升實(shí)際性能。
02.數(shù)據(jù)搬運(yùn)的根本解決方案在于存算一體
這些傳統(tǒng)的解決方案的確有效。我們看F值就知道,如果把數(shù)據(jù)搬運(yùn)效率提升1倍,不需要用5納米、3納米、1納米工藝,實(shí)際計(jì)算性能也能提升1倍。但是要真正解決這個(gè)問(wèn)題,我們認(rèn)為根本的解決方案是存算一體。存算一體相當(dāng)于在存儲(chǔ)單元的基礎(chǔ)上,把計(jì)算的部分加上去,模型的參數(shù)搬運(yùn)環(huán)節(jié)基本上就免掉了。比方說(shuō)1750億參數(shù)的GPT-3模型,每一次推理計(jì)算的時(shí)候都要把350Gbyte的數(shù)據(jù)搬到芯片上,才能做一次推理、算一次Token。如果是訓(xùn)練,這個(gè)數(shù)據(jù)量會(huì)更大。但如果這個(gè)數(shù)據(jù)不需要搬運(yùn),就意味著數(shù)據(jù)搬運(yùn)的瓶頸根本不存在,計(jì)算的效率會(huì)高很多。存算一體的技術(shù)現(xiàn)在也慢慢被大廠所接受,比如AMD已經(jīng)宣布他們將會(huì)以存算一體作為核心,結(jié)合異構(gòu)的方式,實(shí)現(xiàn)既兼顧通用性,又能夠有非常強(qiáng)的計(jì)算能力的芯片。還例如特斯拉,最近宣布其基于近存儲(chǔ)計(jì)算的超級(jí)計(jì)算機(jī)Dojo1已經(jīng)準(zhǔn)備好了,業(yè)界對(duì)此評(píng)價(jià)非常高。摩根士丹利說(shuō),光是芯片就有可能給特斯拉帶來(lái)5000億美元市值的增量。三星也宣布將基于DRAM做存算一體,他們認(rèn)為在不久的將來(lái),存儲(chǔ)器在AI服務(wù)器中的重要性將超過(guò)英偉達(dá)GPU的重要性。三星預(yù)計(jì)到2028年發(fā)布以存儲(chǔ)器為中心的超級(jí)計(jì)算機(jī)。言下之意就是要做基于存算一體的超級(jí)計(jì)算機(jī)。億鑄科技近期成功點(diǎn)亮大模型時(shí)代存算一體AI大算力原型技術(shù)驗(yàn)證芯片(POC)。該P(yáng)OC芯片基于成熟工藝制程,在100W以內(nèi),單卡算力可以突破P級(jí),也就是1000T。另外,該P(yáng)OC芯片的能效比已經(jīng)遠(yuǎn)超英偉達(dá)5納米工藝制程的H100系列4T/W左右的能效比。面對(duì)ChatGPT等大模型帶來(lái)的AI算力挑戰(zhàn),億鑄科技在年初提出“存算一體超異構(gòu)”,以存算一體(CIM)AI加速計(jì)算單元為核心,以統(tǒng)一ISA指令集和架構(gòu)將不同的計(jì)算單元進(jìn)行異構(gòu)集成和系統(tǒng)優(yōu)化,既能實(shí)現(xiàn)更大的AI算力以及更高的能效比,還可以提供更好的可編程性和更為通用的應(yīng)用生態(tài)。通過(guò)前面講到的CMOS工藝、新型存儲(chǔ)器、存算一體的架構(gòu)、Chiplet、先進(jìn)封裝,我們能夠?qū)⑿酒行懔ψ龅礁?,參?shù)能放置更多,支持更大規(guī)模的模型,能效比更高,軟件的兼容性和可編程性更好。另外很關(guān)鍵的一點(diǎn),就是芯片的發(fā)展空間非常大。目前該P(yáng)OC芯片采用了傳統(tǒng)工藝制程,未來(lái),不管是容量還是性能,比較保守地說(shuō),至少擁有幾倍或者十倍以上的成長(zhǎng)空間,這是可以預(yù)期的。
03.AI應(yīng)用進(jìn)入2.0時(shí)代,存算一體成為AI大模型算力發(fā)展“靈丹妙藥”
在強(qiáng)AI的大模型時(shí)代,一定范圍內(nèi),大模型會(huì)替代傳統(tǒng)的小模型。由于大模型突出的泛化性,將會(huì)低成本地催生新的AI應(yīng)用場(chǎng)景,并且在各個(gè)垂直領(lǐng)域能夠快速地落地和推廣。另外,我們認(rèn)為大模型將來(lái)有可能會(huì)以IAAS(Intelligence As A Service,智能即服務(wù))的產(chǎn)品形式賦能各個(gè)行業(yè)。此外,極高的AI研發(fā)投入帶來(lái)的副作用,是“通用智能寡頭”的格局。但出于大模型的泛化性,在具體的垂直行業(yè)、垂直領(lǐng)域反而有利于通用人工智能落地。將來(lái)在各個(gè)領(lǐng)域,我們認(rèn)為會(huì)出現(xiàn)“百花齊放”的格局。總的來(lái)說(shuō),AI應(yīng)用已經(jīng)進(jìn)入到了新的2.0時(shí)代。目前最突出的問(wèn)題,就是大模型導(dǎo)致的巨量數(shù)據(jù)搬運(yùn)問(wèn)題,這個(gè)問(wèn)題的根源來(lái)自于存儲(chǔ)墻。現(xiàn)在性能最好的H100芯片,如果用在參數(shù)總量為350Gbyte的GPT-3模型上做推理計(jì)算,數(shù)據(jù)搬運(yùn)每秒只能搬6次左右。這就意味著用H100,1秒大概只能算6個(gè)或10個(gè)Token。但從計(jì)算能力上來(lái)說(shuō),這樣的數(shù)據(jù)搬運(yùn)其實(shí)只占用H100計(jì)算能力中很少的百分比,大部分算力是空余的。如果把這個(gè)存儲(chǔ)墻問(wèn)題解決,H100的實(shí)際效能可能至少提升10倍以上。我們認(rèn)為在大模型時(shí)代,AI大算力芯片的競(jìng)爭(zhēng)核心會(huì)逐步轉(zhuǎn)向破除“存儲(chǔ)墻”。這部分誰(shuí)解決得好,誰(shuí)就會(huì)在未來(lái)AI芯片競(jìng)爭(zhēng)格局里占優(yōu)勢(shì),Amdahl Law阿姆達(dá)爾定律早已揭示了這點(diǎn)。在大模型時(shí)代,數(shù)據(jù)搬運(yùn)已經(jīng)占據(jù)整個(gè)計(jì)算周期90%以上。這意味著算力本身對(duì)于實(shí)際算力來(lái)說(shuō),重要性反而不是那么高,更重要的是解決數(shù)據(jù)的搬運(yùn)。由此出發(fā),我們認(rèn)為存算一體超異構(gòu)的AI芯片架構(gòu),天然地適合AI的并行計(jì)算。換句話說(shuō),存算一體是為AI大模型而生的計(jì)算架構(gòu),它的核心就是解決存儲(chǔ)墻,從而解決能耗跟實(shí)際算力瓶頸的問(wèn)題。今天就介紹這些,謝謝大家!以上是熊大鵬演講內(nèi)容的完整整理。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。