從AGI 到互聯(lián)技術(shù)元年,重塑算力世界秩序
本文引用地址:http://cafeforensic.com/article/202403/456496.htm
ChatGPT 誕生一年后,以Sora為代表的 AGI 實(shí)現(xiàn)突破性進(jìn)展,再度引爆了高性能計(jì)算市場(chǎng)。面對(duì)以天為單位飛速迭代的算力需求,以及單個(gè)處理器性能的增長(zhǎng)困境(Scale up),促使企業(yè)轉(zhuǎn)向擴(kuò)展計(jì)算集群規(guī)模,踏上Scale out 之路。從此,行業(yè)所面臨的核心挑戰(zhàn)也從“單個(gè)芯片-集群”,“算力-互聯(lián)”轉(zhuǎn)變。伴隨AGI的誕生,互聯(lián)元年同步開(kāi)啟。
2024年3月5日,互聯(lián)領(lǐng)域先行者奇異摩爾在“奇芯合粒 異往無(wú)前”2024春季發(fā)布會(huì)上正式推出了基于 Kiwi SoChiplet Platform 的全系列互聯(lián)產(chǎn)品及全棧式互聯(lián)解決方案。該系列產(chǎn)品包含“高性能互聯(lián)芯粒IO Die、高性能互聯(lián)底座 Kiwi 3D Base Die、UCIe 標(biāo)準(zhǔn) Die2Die IP以及網(wǎng)絡(luò)加速芯粒NDSA Family”,全面覆蓋片內(nèi)、片間直至網(wǎng)間的互聯(lián)場(chǎng)景?;?/span>IO Die,奇異摩爾及合作伙伴Ventana宣布共同推出了全球首款服務(wù)器級(jí)的RISC-V CPU;同時(shí),奇異摩爾也基于Base Die發(fā)布了全球首款3DIC AI芯片“AI Booster”。
UCIe Board member 陳健在發(fā)布會(huì)上表示 “在Deep Learning、大模型時(shí)代激增的算力需求、摩爾定律放緩、封裝技術(shù)演進(jìn)”等多種因素的共同作用下,Chiplet和IO Die為代表的互聯(lián)芯粒因在良率、先進(jìn)制程解耦、復(fù)用能力等方面所顯示出的優(yōu)勢(shì),成為了歷史的選擇。基于Chiplet架構(gòu)和通用互聯(lián)標(biāo)準(zhǔn),一個(gè)開(kāi)放性、跨公司、支持規(guī)模化復(fù)用的“貨架芯片”市場(chǎng)正逐步成為全行業(yè)的愿景。
這一愿景依賴于模型創(chuàng)新和無(wú)盡的算力需求。如今,從微軟到谷歌,從阿里到字節(jié)跳動(dòng),萬(wàn)卡集群儼然成為大模型訓(xùn)練的標(biāo)配。想支撐更大的模型,算力基礎(chǔ)設(shè)施和生產(chǎn)方式必須同步轉(zhuǎn)變。首先,異構(gòu)加速和超大規(guī)模平臺(tái),使更大規(guī)模的集群設(shè)計(jì)成為可能;其次,想通過(guò)Scale Out方式提升集群算力,必須從網(wǎng)絡(luò)層面著手,互聯(lián)三要素 “Bandwidth, Efficiency, Workload”缺一不可。
在網(wǎng)絡(luò)側(cè),奇異摩爾自研的高性能網(wǎng)絡(luò)加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列,內(nèi)建RoCE V2 高性能 RDMA (Remote Direct Memory Access) 和數(shù)十種卸載/加速引擎,可作為獨(dú)立芯粒,實(shí)現(xiàn)系統(tǒng)不同位置的加速。同時(shí),通過(guò)硬件可配置,軟件可編程的靈活軟硬件架構(gòu),能夠滿足客戶對(duì)復(fù)雜業(yè)務(wù)場(chǎng)景的多樣化需求。得益于Chiplet、RISC-V和FPGA的靈活組合,Kiwi NDSA 出色的平衡了通用與專用,性能和成本間的矛盾。
據(jù)奇異摩爾產(chǎn)品及解決方案副總裁??|介紹,奇異摩爾NDSA家族產(chǎn)品之一,“NDSA-RN-F” 將于近期問(wèn)世。作為全球首批200/400G的高性能FPGA RDMA網(wǎng)卡,“NDSA-RN-F”具備極高的集群擴(kuò)展能力,可以大幅提升集群節(jié)點(diǎn)間的東西向流量交互效率,使得更大規(guī)模的集群設(shè)計(jì)成為可能。同時(shí)擁有us級(jí)超低延時(shí),支持約數(shù)十 MQP高并發(fā),性能遠(yuǎn)超同類FPGA產(chǎn)品,并媲美全球標(biāo)桿 ASIC產(chǎn)品。
NDSA家族產(chǎn)品之二,全球首款支持800G帶寬的RDMA NIC Chiplet產(chǎn)品 “NDSA-RN”。其性能更為強(qiáng)勁,除帶寬升級(jí)到800G之外,延時(shí)也降至ns級(jí),并支持?jǐn)?shù)十GB的超大規(guī)模數(shù)據(jù)包,性能將超越目前全球標(biāo)桿ASIC產(chǎn)品。
網(wǎng)間互聯(lián)的瓶頸與痛點(diǎn),并非為云服務(wù)廠商獨(dú)有。存算一體的環(huán)境中,互聯(lián)芯粒能有效提升系統(tǒng)性能、集成度、可擴(kuò)展性和可靠性。億鑄科技副總裁李明表示,AI大算力芯片競(jìng)爭(zhēng)核心正逐漸轉(zhuǎn)向 “存儲(chǔ)、算力,破除墻”等挑戰(zhàn)。存算一體在破除“存儲(chǔ)墻”方面具有先天優(yōu)勢(shì)。億鑄致力于結(jié)合存算一體+Chiplet芯粒優(yōu)勢(shì),在AI算力芯片產(chǎn)業(yè)格局的基礎(chǔ)上,貢獻(xiàn)更具性價(jià)比、能效比、算力發(fā)展空間的AI大算力芯片發(fā)展新路徑。
芯片間互聯(lián)場(chǎng)景,受AI等各類大算力場(chǎng)景的驅(qū)動(dòng),計(jì)算架構(gòu)將從異構(gòu)計(jì)算進(jìn)一步走向多種異構(gòu)融合的超異構(gòu)并行計(jì)算,片間互聯(lián)瓶頸進(jìn)一步凸顯。NDSA家族產(chǎn)品之三,奇異摩爾自研的全球首創(chuàng)GPU Link Chiplet “NDSA-G2G”,通過(guò)RDMA和D2D技術(shù),在芯片間搭建了高速數(shù)據(jù)交換網(wǎng)絡(luò),可實(shí)現(xiàn)近TB/s的超高速數(shù)據(jù)傳輸,其性能達(dá)到全球領(lǐng)先水平,滿足AI芯片對(duì)于片間交換不斷增長(zhǎng)的需求。
Die間互聯(lián):Die-to-Die IP
Die間互聯(lián)領(lǐng)域,奇異摩爾宣布將正式發(fā)布全球首批支持 UCIe V1.1 的 Die2Die IP “Kiwi-Link”,互聯(lián)速度高達(dá) 32GT/s,延時(shí)低至數(shù)nS。全面支持UCIe、CXL、Streaming等主流協(xié)議,即插即用;同時(shí)支持標(biāo)準(zhǔn)封裝/先進(jìn)封裝等多種封裝形態(tài)。
“為達(dá)到貨架芯粒的愿景,開(kāi)放互通的D2D標(biāo)準(zhǔn)是關(guān)鍵因素” ,陳健介紹,UCIe 最新1.1標(biāo)準(zhǔn)在1.0標(biāo)準(zhǔn)基礎(chǔ)上進(jìn)行了全方面的升級(jí),其中包括汽車行業(yè)增強(qiáng)特性,全棧流協(xié)議,封裝成本優(yōu)化和測(cè)試認(rèn)證。作為構(gòu)建開(kāi)放芯粒生態(tài)的標(biāo)準(zhǔn)組織,UCIe 將通過(guò)各方面的努力促成Chiplet生態(tài)的發(fā)展和成熟。
微觀層面,在摩爾定律放緩背景下,為持續(xù)提升單個(gè)芯片設(shè)計(jì)規(guī)模及能效,片內(nèi)互聯(lián)技術(shù)創(chuàng)造了新的工程成就。作為發(fā)布會(huì)的亮點(diǎn),首次登臺(tái)亮相的 Kiwi SoChiplet Platform 是奇異摩爾所發(fā)布這一系列互聯(lián)產(chǎn)品的基礎(chǔ)。其基于高性能互聯(lián)網(wǎng)絡(luò)Kiwi Fabric,可高效連接、調(diào)度海量高速節(jié)點(diǎn),實(shí)現(xiàn)多Die間高帶寬、低延時(shí)的互聯(lián)。
??|介紹:Kiwi SoChiplet Platform在支持芯粒數(shù)量、CPU Core、Die2Die帶寬、Memory 帶寬、Ext Interface 等關(guān)鍵指標(biāo)方面,均達(dá)到國(guó)際領(lǐng)先水平?;谠撈脚_(tái),客戶可以輕松構(gòu)建多樣化的產(chǎn)品線,實(shí)現(xiàn)連接計(jì)算和存儲(chǔ)/連接的分離,以相對(duì)低的成本使產(chǎn)品及性能持續(xù)保持國(guó)際領(lǐng)先水準(zhǔn)。
全球首款數(shù)據(jù)中心級(jí),通用互聯(lián)芯粒Kiwi IO Die
從Kiwi SoChiplet Platform 出發(fā),奇異摩爾推出了全球首款數(shù)據(jù)中心級(jí)通用互聯(lián)芯粒 Kiwi IO Die,內(nèi)部集成了如D2DDDRPCIeCXL等大量存儲(chǔ)、互聯(lián)接口。客戶可以根據(jù)企業(yè)自身需求,圍繞IO Die,輕松搭建低/中/高性能的數(shù)據(jù)中心處理器。該平臺(tái)最高支持10+Chiplets、構(gòu)建高達(dá)192 core CPU或1000T GPU的算力平臺(tái)。
發(fā)布會(huì)上,奇異摩爾及高性能RISC-V領(lǐng)域的領(lǐng)導(dǎo)者 Ventana Micro公開(kāi)展示了基于Kiwi IO Die的應(yīng)用方案。雙方以遠(yuǎn)低于傳統(tǒng) SoC 構(gòu)建的時(shí)間和成本創(chuàng)建了一款高性能數(shù)據(jù)中心級(jí)RISC-V處理器,并就此打造了RISC-V CPU Chiplet Platform,實(shí)現(xiàn)了RISC-V與互聯(lián)技術(shù)組合的跨越性一步。
在本次發(fā)布的RISC-V CPU Chiplet中,計(jì)算單元部分,即Ventana Veyron V2處理器,在其前身V1基礎(chǔ)上進(jìn)行了重大升級(jí),提供更好的Performance/W。每個(gè)芯粒包括32個(gè)核心,多顆芯粒基于chiplet架構(gòu),通過(guò)UCIe接口,連接到奇異摩爾提供的高性能IO Die上,實(shí)現(xiàn)最高192個(gè)內(nèi)核,支持包括奇異摩爾NDSA在內(nèi)的多種領(lǐng)域加速器。
Ventana創(chuàng)始人兼CEO Balaji Baktha表示:Ventana 和奇異摩爾共同建立了一個(gè)可擴(kuò)展架構(gòu),可將多個(gè)Ventana Veyron V2 與 奇異摩爾 的I/O Die組成不同配置的SoC,從而獲得功率、成本和SKU優(yōu)化。這種方案不僅提高了靈活性,允許用戶根據(jù)需要調(diào)整AI應(yīng)用的規(guī)模和性能,也能有效避免對(duì)單一供應(yīng)商的依賴,使客戶在競(jìng)爭(zhēng)激烈的市場(chǎng)中脫穎而出。
“RISC-V和Chiplet的目標(biāo)同為構(gòu)建一個(gè)成本更加低廉,更加普惠的算力世界,二者的組合充滿想象力,將會(huì)塑造全新的商業(yè)形態(tài)。” 陳健就此表示。
Kiwi 3D Base Die,為Edge AI提速
隨著大模型發(fā)展,推理需求不斷增長(zhǎng)。根據(jù) OpenAI 論文:Scaling Laws for Neural Language Models 測(cè)算,Sora 推理算力需求是 GPT-4 的 1000 倍以上。為應(yīng)對(duì)不斷飛漲的推理需求,在片內(nèi),互聯(lián)趨勢(shì)已從2.5D擴(kuò)展至3D層面。奇異摩爾全球首款通用高性能互聯(lián)底座 Kiwi 3D Base Die,實(shí)現(xiàn)了通用互聯(lián)芯粒在帶寬、能效、搭載芯片數(shù)量等多方面的突破性進(jìn)展。
Kiwi 3D Base Die具有極高的互聯(lián)密度,通過(guò)3D D2D、PCIe等高速接口,能夠以20%的功耗實(shí)現(xiàn)8倍于2.5D結(jié)構(gòu)的互聯(lián)密度;其具備卓越的通用性和靈活性,最高可實(shí)現(xiàn)16顆算力芯粒堆疊,并可通過(guò)高速外部接口連接不同的Host SoC單元,充分利用客戶現(xiàn)有硬件資源;同時(shí)集成了大容量3D Cache,在真正意義上將存儲(chǔ)、計(jì)算、互聯(lián)功能整合為一體。
根據(jù)自身需求,客戶無(wú)需流片,只需在Base Die上封裝不同數(shù)目的算力芯粒,外接HBM,即可快速形成應(yīng)對(duì)不同場(chǎng)景的高性能芯片,特別適用于覆蓋多個(gè)細(xì)分垂直市場(chǎng)的企業(yè)。
基于3D Base Die,奇異摩爾面向Edge AI,正式推出了全球首款通用3DIC Chiplet “AI Booster”,將32顆存算一體芯粒單元整合在一起,通過(guò)底層的Base Die進(jìn)行垂直互聯(lián),從而實(shí)現(xiàn)性能和靈活性的完美兼容。
針對(duì)AI Booster設(shè)計(jì)方面的經(jīng)驗(yàn),奇異摩爾封裝與運(yùn)營(yíng)總監(jiān)徐健表示,Chiplet 設(shè)計(jì)可以理解為Die-interposer-Package協(xié)同設(shè)計(jì)的結(jié)果。不同于傳統(tǒng)的封裝設(shè)計(jì),Chiplet的設(shè)計(jì)更為復(fù)雜,需要從系統(tǒng)層面定義好整體設(shè)計(jì)思路,包括架構(gòu)、片內(nèi)互聯(lián)方式、封裝結(jié)構(gòu)和工藝等,并需要架構(gòu)、電路、封裝設(shè)計(jì)和工藝團(tuán)隊(duì)的緊密配合。
當(dāng)然,Chiplet作為一種新的設(shè)計(jì)方式,離不開(kāi)專業(yè)EDA工具的支持。芯和半導(dǎo)體聯(lián)合創(chuàng)始人代文亮博士表示,奇異摩爾本次發(fā)布的多個(gè)2.5D/3DIC產(chǎn)品為例,其設(shè)計(jì)正是基于芯和3DIC Chiplet 設(shè)計(jì)仿真EDA平臺(tái),從架構(gòu)探索、物理實(shí)現(xiàn)、分析驗(yàn)證、信號(hào)完整性仿真、電源完整性仿真到最終簽核的全流程解決方案,極大地提高 了芯片設(shè)計(jì)的迭代速度,最終實(shí)現(xiàn)了如此出色的產(chǎn)品。
為實(shí)現(xiàn)更高密度的底層互聯(lián),先進(jìn)封裝技術(shù)也被賦予了新的、更高的期待。長(zhǎng)電科技創(chuàng)新中心總經(jīng)理宗華博士表示,異構(gòu)集成已成為高性能計(jì)算領(lǐng)域的主流趨勢(shì)。2.5D/3D先進(jìn)封裝技術(shù)有力的推動(dòng)了高性能計(jì)算發(fā)展。長(zhǎng)電科技目前推出了XDFO-Organic,XDFOI-Bridge,XDFOI-TSV三種先進(jìn)封裝方案,其中,性價(jià)比最高的方案為XDFOI-Bridge,可以通過(guò)先進(jìn)封裝技術(shù)把各種功能單元集成在一起,形成一個(gè)高性能的超異構(gòu)系統(tǒng),助力高性能計(jì)算未來(lái)。
奇異摩爾研發(fā)副總裁溫德鑫在發(fā)布會(huì)現(xiàn)場(chǎng)介紹了奇異摩爾的2.5D/3D design Platform。該平臺(tái)由奇異摩爾和UMC等產(chǎn)業(yè)鏈伙伴合作打造,全面涵蓋從系統(tǒng)探索、規(guī)劃,2.5D/3D 設(shè)計(jì)驗(yàn)證,生產(chǎn)和驗(yàn)證,量產(chǎn)管理的Chiplet方案。客戶可以基于該平臺(tái),迅速設(shè)計(jì)、驗(yàn)證、量產(chǎn)、加速上市時(shí)間。
奇異摩爾創(chuàng)始人兼CEO田陌晨表示,Scaling 已成為全行業(yè)關(guān)注的焦點(diǎn)。無(wú)論自然界還是人工智能,在scaling 中,個(gè)體間的交流、互聯(lián)都是促成從量變到質(zhì)變的核心。
系統(tǒng)總算力,由算力、算力密度、互聯(lián)帶寬、IO帶寬、存儲(chǔ)帶寬共同決定。互聯(lián)是唯一無(wú)法通過(guò)Scaling 提升的參數(shù)。奇異摩爾作為一家專注于互聯(lián)技術(shù)的企業(yè),致力于通過(guò)互聯(lián)技術(shù)的創(chuàng)新,提升互聯(lián)密度的壁壘,助力AGI 時(shí)代技術(shù)語(yǔ)言統(tǒng)一的可能性,與眾合作伙伴,共同建造AGI 時(shí)代的巴別塔。
評(píng)論