色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<address id="brold"></address>

"); //-->

博客專欄

EEPW首頁(yè) > 博客 > 億鑄科技熊大鵬：大模型時(shí)代，AI大算力芯片急需破除“存儲(chǔ)墻”丨GACS 2023

億鑄科技熊大鵬：大模型時(shí)代，AI大算力芯片急需破除“存儲(chǔ)墻”丨GACS 2023

發(fā)布人：芯東西時(shí)間：2023-10-25 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

發(fā)布文章

存算一體超異構(gòu)，實(shí)現(xiàn)更大的AI算力和更高的能效比。編輯 | GACS
9月14日~15日，2023全球AI芯片峰會(huì)（GACS 2023）在深圳南山圓滿舉行。在首日開幕式上，億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬分享了題為《存算一體超異構(gòu)AI大算力芯片破局大模型時(shí)代“芯”挑戰(zhàn)》的主題演講。熊大鵬提出，大模型時(shí)代下的“芯”挑戰(zhàn)，比起算力如何增長(zhǎng)，更大的問(wèn)題在于數(shù)據(jù)搬運(yùn)能力的剪刀差越來(lái)越大。數(shù)據(jù)顯示，計(jì)算能力與數(shù)據(jù)搬運(yùn)之間的鴻溝，大概以每年50%的速率擴(kuò)大。大模型出現(xiàn)后，數(shù)據(jù)訪存在整個(gè)計(jì)算周期里的占比，達(dá)到了95%以上甚至更高。億鑄科技認(rèn)為，隨著AI應(yīng)用進(jìn)入到2.0時(shí)代，要解決AI計(jì)算芯片面臨的諸多挑戰(zhàn)，關(guān)鍵在于回歸阿姆達(dá)爾定律并成功破除“存儲(chǔ)墻”。據(jù)悉，億鑄科技原型技術(shù)驗(yàn)證（POC）芯片已回片，并成功點(diǎn)亮。該P(yáng)OC是首顆基于ReRAM的面向數(shù)據(jù)中心、云計(jì)算、自動(dòng)駕駛等場(chǎng)景的存算一體矩陣POC，能效比超過(guò)預(yù)期表現(xiàn)，進(jìn)一步驗(yàn)證了公司的技術(shù)實(shí)力和市場(chǎng)潛力。以下為熊大鵬的演講實(shí)錄：大家好！我去年也參加了AI芯片峰會(huì)，但今年情況不一樣，因?yàn)榻衲甏竽Ｐ偷幕鸨o人工智能芯片等各方面都帶來(lái)了巨大的變化。下面我將介紹億鑄科技存算一體超異構(gòu)AI大算力芯片怎么去應(yīng)對(duì)大模型時(shí)代的“芯”挑戰(zhàn)。
01.數(shù)據(jù)搬運(yùn)，大模型時(shí)代的“芯”挑戰(zhàn)

大模型的參數(shù)規(guī)模，像GPT-3目前是1750億，未來(lái)可能將會(huì)迎來(lái)幾倍、幾十倍、上百倍的增長(zhǎng)。這樣的增長(zhǎng)帶來(lái)的好處是，大模型的容量、智能等各方面將會(huì)超過(guò)人的大腦。但與此同時(shí)，大模型時(shí)代也對(duì)我們提出了很多挑戰(zhàn)跟需求。第一，算力如何提升。目前來(lái)說(shuō)，人們針對(duì)大模型的芯片制造工藝或是其他各方面投入基本都已經(jīng)到了極限。第二，大模型對(duì)計(jì)算能耗的需求非常大。AMD CEO蘇姿豐說(shuō)過(guò)，如果沒(méi)有新的技術(shù)出現(xiàn)，按照目前的計(jì)算效率，12年以后，也就是2035年，每一臺(tái)Zetta級(jí)別的超級(jí)計(jì)算機(jī)所需要的能耗將會(huì)相當(dāng)于半個(gè)核電站。從算力的角度來(lái)說(shuō)，支撐底層算力的摩爾定律現(xiàn)在幾近終結(jié)。但是我們的模型越來(lái)越大，算法越來(lái)越復(fù)雜，對(duì)算力的要求也越來(lái)越高，這將是一個(gè)很大的挑戰(zhàn)。AI芯片，或者說(shuō)大算力AI芯片，將來(lái)的路該怎么走？除了算力以外還有一個(gè)更大的問(wèn)題——數(shù)據(jù)搬運(yùn)能力的剪刀差越來(lái)越大。

基于摩爾定律，算力每年大概以60%-70%的速率提升。但是對(duì)于數(shù)據(jù)搬運(yùn)，無(wú)論是從外部的存儲(chǔ)器搬運(yùn)到芯片內(nèi)部，還是芯片內(nèi)部的數(shù)據(jù)總線，其物理線速度的提升基本是每年10%以內(nèi)。這就導(dǎo)致計(jì)算能力與數(shù)據(jù)搬運(yùn)之間的鴻溝，大概以每年50%的速率擴(kuò)大。在過(guò)去十年，單位計(jì)算力所需要和所能獲取的數(shù)據(jù)搬運(yùn)帶寬，差距擴(kuò)大了3倍。對(duì)大模型來(lái)說(shuō)，其實(shí)問(wèn)題的根源就在于，怎么把數(shù)據(jù)不被堵塞地從外部搬到內(nèi)部。下圖這個(gè)模型，我已經(jīng)在很多地方講過(guò)。這里的F值，指的是數(shù)據(jù)訪存在整個(gè)計(jì)算周期里的占比。

在過(guò)去存算分離的馮·諾伊曼架構(gòu)下，做AI芯片或是跟AI芯片相關(guān)的應(yīng)用時(shí)，F(xiàn)值就已經(jīng)達(dá)到80%-90%。這意味著大量的能耗是卡在數(shù)據(jù)搬運(yùn)訪存上的，造成了性能瓶頸。在大模型的時(shí)代背景下，F(xiàn)值更是能達(dá)到95%。這意味著如果數(shù)據(jù)搬運(yùn)的速度不提升，即使我們將來(lái)用更好的工藝去獲取更高的算力，對(duì)實(shí)際性能提升的百分比其實(shí)非常有限，可能只有10%-20%。這也是為什么到今天，更多的公司開始把注意力集中在解決數(shù)據(jù)搬運(yùn)的問(wèn)題上，比方說(shuō)大量地采用HBM、 3D RAM封裝技術(shù)等等。這些解決方案會(huì)帶來(lái)更好的片間互連、板間互連，能夠比較有效地去解決數(shù)據(jù)搬運(yùn)問(wèn)題，從而非常有效地提升實(shí)際性能。
02.數(shù)據(jù)搬運(yùn)的根本解決方案在于存算一體

這些傳統(tǒng)的解決方案的確有效。我們看F值就知道，如果把數(shù)據(jù)搬運(yùn)效率提升1倍，不需要用5納米、3納米、1納米工藝，實(shí)際計(jì)算性能也能提升1倍。但是要真正解決這個(gè)問(wèn)題，我們認(rèn)為根本的解決方案是存算一體。存算一體相當(dāng)于在存儲(chǔ)單元的基礎(chǔ)上，把計(jì)算的部分加上去，模型的參數(shù)搬運(yùn)環(huán)節(jié)基本上就免掉了。比方說(shuō)1750億參數(shù)的GPT-3模型，每一次推理計(jì)算的時(shí)候都要把350Gbyte的數(shù)據(jù)搬到芯片上，才能做一次推理、算一次Token。如果是訓(xùn)練，這個(gè)數(shù)據(jù)量會(huì)更大。但如果這個(gè)數(shù)據(jù)不需要搬運(yùn)，就意味著數(shù)據(jù)搬運(yùn)的瓶頸根本不存在，計(jì)算的效率會(huì)高很多。存算一體的技術(shù)現(xiàn)在也慢慢被大廠所接受，比如AMD已經(jīng)宣布他們將會(huì)以存算一體作為核心，結(jié)合異構(gòu)的方式，實(shí)現(xiàn)既兼顧通用性，又能夠有非常強(qiáng)的計(jì)算能力的芯片。還例如特斯拉，最近宣布其基于近存儲(chǔ)計(jì)算的超級(jí)計(jì)算機(jī)Dojo1已經(jīng)準(zhǔn)備好了，業(yè)界對(duì)此評(píng)價(jià)非常高。摩根士丹利說(shuō)，光是芯片就有可能給特斯拉帶來(lái)5000億美元市值的增量。三星也宣布將基于DRAM做存算一體，他們認(rèn)為在不久的將來(lái)，存儲(chǔ)器在AI服務(wù)器中的重要性將超過(guò)英偉達(dá)GPU的重要性。三星預(yù)計(jì)到2028年發(fā)布以存儲(chǔ)器為中心的超級(jí)計(jì)算機(jī)。言下之意就是要做基于存算一體的超級(jí)計(jì)算機(jī)。億鑄科技近期成功點(diǎn)亮大模型時(shí)代存算一體AI大算力原型技術(shù)驗(yàn)證芯片（POC）。該P(yáng)OC芯片基于成熟工藝制程，在100W以內(nèi)，單卡算力可以突破P級(jí)，也就是1000T。另外，該P(yáng)OC芯片的能效比已經(jīng)遠(yuǎn)超英偉達(dá)5納米工藝制程的H100系列4T/W左右的能效比。面對(duì)ChatGPT等大模型帶來(lái)的AI算力挑戰(zhàn)，億鑄科技在年初提出“存算一體超異構(gòu)”，以存算一體（CIM）AI加速計(jì)算單元為核心，以統(tǒng)一ISA指令集和架構(gòu)將不同的計(jì)算單元進(jìn)行異構(gòu)集成和系統(tǒng)優(yōu)化，既能實(shí)現(xiàn)更大的AI算力以及更高的能效比，還可以提供更好的可編程性和更為通用的應(yīng)用生態(tài)。

通過(guò)前面講到的CMOS工藝、新型存儲(chǔ)器、存算一體的架構(gòu)、Chiplet、先進(jìn)封裝，我們能夠?qū)⑿酒行懔ψ龅礁?，參?shù)能放置更多，支持更大規(guī)模的模型，能效比更高，軟件的兼容性和可編程性更好。另外很關(guān)鍵的一點(diǎn)，就是芯片的發(fā)展空間非常大。目前該P(yáng)OC芯片采用了傳統(tǒng)工藝制程，未來(lái)，不管是容量還是性能，比較保守地說(shuō)，至少擁有幾倍或者十倍以上的成長(zhǎng)空間，這是可以預(yù)期的。

03.AI應(yīng)用進(jìn)入2.0時(shí)代，存算一體成為AI大模型算力發(fā)展“靈丹妙藥”

在強(qiáng)AI的大模型時(shí)代，一定范圍內(nèi)，大模型會(huì)替代傳統(tǒng)的小模型。由于大模型突出的泛化性，將會(huì)低成本地催生新的AI應(yīng)用場(chǎng)景，并且在各個(gè)垂直領(lǐng)域能夠快速地落地和推廣。另外，我們認(rèn)為大模型將來(lái)有可能會(huì)以IAAS（Intelligence As A Service，智能即服務(wù)）的產(chǎn)品形式賦能各個(gè)行業(yè)。此外，極高的AI研發(fā)投入帶來(lái)的副作用，是“通用智能寡頭”的格局。但出于大模型的泛化性，在具體的垂直行業(yè)、垂直領(lǐng)域反而有利于通用人工智能落地。將來(lái)在各個(gè)領(lǐng)域，我們認(rèn)為會(huì)出現(xiàn)“百花齊放”的格局。總的來(lái)說(shuō)，AI應(yīng)用已經(jīng)進(jìn)入到了新的2.0時(shí)代。目前最突出的問(wèn)題，就是大模型導(dǎo)致的巨量數(shù)據(jù)搬運(yùn)問(wèn)題，這個(gè)問(wèn)題的根源來(lái)自于存儲(chǔ)墻。現(xiàn)在性能最好的H100芯片，如果用在參數(shù)總量為350Gbyte的GPT-3模型上做推理計(jì)算，數(shù)據(jù)搬運(yùn)每秒只能搬6次左右。這就意味著用H100，1秒大概只能算6個(gè)或10個(gè)Token。但從計(jì)算能力上來(lái)說(shuō)，這樣的數(shù)據(jù)搬運(yùn)其實(shí)只占用H100計(jì)算能力中很少的百分比，大部分算力是空余的。如果把這個(gè)存儲(chǔ)墻問(wèn)題解決，H100的實(shí)際效能可能至少提升10倍以上。我們認(rèn)為在大模型時(shí)代，AI大算力芯片的競(jìng)爭(zhēng)核心會(huì)逐步轉(zhuǎn)向破除“存儲(chǔ)墻”。這部分誰(shuí)解決得好，誰(shuí)就會(huì)在未來(lái)AI芯片競(jìng)爭(zhēng)格局里占優(yōu)勢(shì)，Amdahl Law阿姆達(dá)爾定律早已揭示了這點(diǎn)。在大模型時(shí)代，數(shù)據(jù)搬運(yùn)已經(jīng)占據(jù)整個(gè)計(jì)算周期90%以上。這意味著算力本身對(duì)于實(shí)際算力來(lái)說(shuō)，重要性反而不是那么高，更重要的是解決數(shù)據(jù)的搬運(yùn)。由此出發(fā)，我們認(rèn)為存算一體超異構(gòu)的AI芯片架構(gòu)，天然地適合AI的并行計(jì)算。換句話說(shuō)，存算一體是為AI大模型而生的計(jì)算架構(gòu)，它的核心就是解決存儲(chǔ)墻，從而解決能耗跟實(shí)際算力瓶頸的問(wèn)題。今天就介紹這些，謝謝大家！以上是熊大鵬演講內(nèi)容的完整整理。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 大模型

相關(guān)推薦

免費(fèi)！字節(jié)跳動(dòng)發(fā)布豆包MarsCode智能開發(fā)工具：支持代碼補(bǔ)全、Bug修復(fù)

智能計(jì)算字節(jié)跳動(dòng) 大模型 AI編程 | 2024-06-27

邊緣智能：AI商業(yè)化中最值得關(guān)注的一環(huán)

智能計(jì)算邊緣智能 AI 大模型 | 2024-05-16

英偉達(dá)的挑戰(zhàn)者的來(lái)錢之道

智能計(jì)算英偉達(dá) 大模型 | 2024-07-23

浪潮之下的大語(yǔ)言模型以及我國(guó)未來(lái)大語(yǔ)言模型的發(fā)展

智能計(jì)算 202405 大語(yǔ)言模型大模型 | 2024-05-09

大模型價(jià)格戰(zhàn)開打，多芯混合能否成破局之策？

智能計(jì)算大模型 | 2024-06-25

從基礎(chǔ)能力到應(yīng)用，大模型實(shí)測(cè)結(jié)果揭曉

智能計(jì)算大模型實(shí)測(cè) 大模型 | 2024-06-11

AI大模型時(shí)代的邊云協(xié)同之EdgeXFoundry

nakey | 2024-04-10

OpenAI終止對(duì)中國(guó)提供API服務(wù)，國(guó)產(chǎn)大模型發(fā)布應(yīng)對(duì)方案

智能計(jì)算 openAI API 大模型 | 2024-06-26

大模型提速自動(dòng)駕駛算法開發(fā)——2024年IDC中國(guó)自動(dòng)駕駛開發(fā)平臺(tái)廠商評(píng)估研究報(bào)告發(fā)布

汽車電子大模型自動(dòng)駕駛算法開發(fā) IDC | 2024-06-24

OpenAI再次對(duì)線谷歌，誰(shuí)才是贏家？

智能計(jì)算 OpenAI 谷歌 Gemini ChatGPT 大模型 | 2024-05-16

斯坦福AI團(tuán)隊(duì)承認(rèn)抄襲清華模型，公開道歉并撤下爭(zhēng)議項(xiàng)目

智能計(jì)算 AI 清華大模型 | 2024-06-05

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)

<abbr id="axkyu"><th id="axkyu"></th></abbr>

<address id="axkyu"><tfoot id="axkyu"><tbody id="axkyu"></tbody></tfoot></address>

<pre id="axkyu"><cite id="axkyu"><menu id="axkyu"></menu></cite></pre>

<mark id="axkyu"><form id="axkyu"></form></mark>