中國移動發(fā)布了一顆芯片:本土首顆400Gbps DPU
自去年ChatGPT發(fā)布以來,數(shù)據(jù)中心的芯片需求迎來了新一輪的上升周期。當(dāng)中尤其以英偉達GPU的表現(xiàn)最為亮眼。與此同時,作為芯片最終買家的云廠商也開始以自研或跟芯片廠商合作的方式涉足數(shù)據(jù)中心核心芯片的開發(fā)。
美國的亞馬遜云(AWS)2017年最先實現(xiàn)了DPU芯片(AWS稱之為Nitro)的商業(yè)化成功部署,AWS在使用自研DPU芯片后,使其實現(xiàn)了巨大收益;谷歌依托于自身對業(yè)務(wù)的深刻理解及與Broadcom等芯片公司的緊密合作,成功迭代和推出了多代自研TPU芯片。
近日,國內(nèi)的“云大戶”中國移動也帶來自己的DPU芯片“磐石”——本土首顆400Gbps帶寬的DPU ASIC芯片,實現(xiàn)關(guān)鍵技術(shù)自主可控。考慮到DPU對數(shù)據(jù)中心和云業(yè)務(wù)的重要性,相信這將為近年來大力發(fā)展云業(yè)務(wù)的中國移動打下夯實基礎(chǔ),并為其帶來獨特的競爭力。
圖:中國移動磐石DPU V4.0
DPU,第三顆主力芯片
所謂DPU(Data Processing Unit),也就是數(shù)據(jù)處理單元。顧名思義,這是一種專門為數(shù)據(jù)處理而設(shè)計的芯片。作為繼CPU、GPU以外的第三顆主力芯片, DPU成為了幾乎所有云廠商甚至海外芯片巨頭的關(guān)注目標。例如英偉達耗資69億美元收購Mellanox,AMD花費19億美元收購Pensando ,就是為了DPU。
由中國移動協(xié)同云豹智能和信通院聯(lián)合撰寫的DPU白皮書《云計算通用可編程DPU發(fā)展白皮書(2023年)》中指出:“隨著人類生產(chǎn)力進入算力時代,傳統(tǒng)以 CPU 為核心的架構(gòu)正在遭受算力瓶頸考驗,多樣化算力需求亟需軟硬件架構(gòu)全面變革,算力技術(shù)發(fā)展必將遵循‘軟件定義一切,硬件加速一切’的理念,重構(gòu)算力基礎(chǔ)設(shè)施,通用可編程加速單元 DPU 將成為新的算力核心,重新定義算力時代云計算技術(shù)新標準,構(gòu)建算力時代新技術(shù)曲線?!?/span>
但其實在DPU面世以前,這款芯片還是經(jīng)歷了幾代的變遷。
在一開始的時候,數(shù)據(jù)中心的數(shù)據(jù)處理工作都是由CPU完成,而網(wǎng)絡(luò)傳輸任務(wù)則由專門的傳統(tǒng)基礎(chǔ)網(wǎng)卡NIC(又稱網(wǎng)絡(luò)接口卡)處理。具體工作流程就是NIC將用戶需要傳輸?shù)臄?shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò)設(shè)備能夠識別的格式,然后把數(shù)據(jù)交由CPU處理。
但隨著網(wǎng)絡(luò)規(guī)模的不斷增加和新需求的不斷出現(xiàn),網(wǎng)絡(luò)和存儲的數(shù)據(jù)量不斷增加,進而驅(qū)動數(shù)據(jù)中心中的網(wǎng)卡端口速率從 10G 快速向 25G、100G甚至200G 及以上演進,給CPU帶來新的壓力。這個時候,一種旨在減輕 CPU 的部分處理負載,進一步提高數(shù)據(jù)中心效率的智能網(wǎng)卡(SmartNIC)就進入了大眾的視野。據(jù)了解,智能網(wǎng)卡 SmartNIC 除了具備傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)傳輸功能外,還提供一定的硬件卸載和加速能力,釋放主機 CPU的部分計算資源。
然而,在后續(xù)的發(fā)展中,SmartNIC也捉襟見肘。例如,因為沒有包含通用處理器 CPU,意味著仍然需要主機 CPU進行控制面管理及網(wǎng)絡(luò)和存儲等協(xié)議的大部分處理,繼續(xù)消耗大量主機Host資源。而且,隨著數(shù)據(jù)中心網(wǎng)絡(luò)速率向100G及200G甚至更高速率的不斷提高,主機不但仍會消耗大量寶貴的通用CPU資源對流量進行分類、跟蹤和控制,而且其性能也已經(jīng)無法滿足更高網(wǎng)絡(luò)速率及存儲帶寬的需求。
于是,如何實現(xiàn)主機 CPU 的“零消耗”及解鎖數(shù)據(jù)中心向更大規(guī)模及更高帶寬的演進,成了云廠商下一步的研究方向,DPU也應(yīng)運而生。
從設(shè)計上看,DPU通過在硬件架構(gòu)上增加通用處理單元CPU和豐富的硬件加速單元,從而便于實現(xiàn)對網(wǎng)絡(luò)、存儲、安全和管控等通用基礎(chǔ)設(shè)施的加速和全卸載。其產(chǎn)品形態(tài)主要有NP/MP+CPU,F(xiàn)PGA+CPU和單芯片ASIC方案。據(jù)了解,在發(fā)展早期,基于FPGA的可編程性的FPGA+CPU多芯片方案成為了行業(yè)首選。
除了亞馬遜以外,大部分云廠商尤其是國內(nèi)的云廠商,如:阿里、騰訊、百度等,都用的傳統(tǒng)FPGA+CPU方案,其競爭壓力也隨之而至。隨著帶寬流量的進一步增加,擁有價格和性能優(yōu)勢、兼顧專用加速器的優(yōu)異性能和內(nèi)嵌通用處理器的靈活性可編程ASIC單芯片方案成為了行業(yè)的最終選擇,而國內(nèi)的云廠商也正在尋求從FPGA+CPU方案到ASIC方案的演變,這最終驅(qū)使中國移動自研了采用ASIC的DPU芯片“磐石”。
磐石,取得重大突破
從產(chǎn)品應(yīng)用角度看,如何才稱得上一顆有競爭優(yōu)勢的DPU?
在我們看來,它首先應(yīng)該能夠支持高速低時延網(wǎng)絡(luò),因為這是這個芯片的首要任務(wù);其次,我們還希望這個DPU能夠引入高性能通用多核CPU、可編程硬件加速器,以期在提供可編程性和通用處理能力的同時,還能滿足人工智能、分析和安全操作等差異化特定任務(wù)的執(zhí)行。
中國移動的這顆芯片帶寬為400Gbps,緊密契合了當(dāng)前的數(shù)據(jù)中心高帶寬需求,我們可以肯定地說,中國移動“磐石”DPU芯片的成功研發(fā),是我國國產(chǎn)芯片領(lǐng)域取得的重大技術(shù)突破。
熟悉的讀者應(yīng)該清楚地知道,數(shù)據(jù)中心服務(wù)器的集成度越來越高。無論是x86還是Arm等架構(gòu)服務(wù)器的CPU芯片,都在向單芯片幾百個甚至更多CPU集成,密度都在不斷增加;同時,網(wǎng)絡(luò)存儲也正在向基于低時延以太網(wǎng)技術(shù)的彈性存儲方向發(fā)展,這增加了對高帶寬低時延以太網(wǎng)的需求;再者,私有云應(yīng)用程序和虛擬桌面基礎(chǔ)設(shè)施的增加對網(wǎng)絡(luò)提出了額外的要求;最后,物聯(lián)網(wǎng)和邊緣的海量數(shù)據(jù)積累正在增加對網(wǎng)絡(luò)的帶寬要求。
疊加AI帶來的新需求,400Gbps洶涌而至,這也讓磐石DPU的發(fā)布恰逢其時。據(jù)介紹,磐石DPU的面世,不但將國產(chǎn)DPU芯片的最高傳輸速率提升到一個新臺階,也讓國內(nèi)另一運營商基于海外FPGA+CPU多芯片方案的DPU等相形見絀。
值得一提的是,隨著該芯片的面世,國產(chǎn)DPU還首次演進到世界頂尖水平——該芯片帶寬和全球領(lǐng)先的英偉達BlueField-3 DPU達到同一水平。
據(jù)公開資料介紹,磐石DPU芯片擁有400Gbps的數(shù)據(jù)傳輸能力,將國產(chǎn)DPU芯片最高傳輸速率提升一倍,達到全球頂尖水平。該芯片擁有每秒處理百萬個數(shù)據(jù)包的存儲能力,遠程直接存取數(shù)據(jù)(RDMA)的時延低至5微秒。同時,還具有低功耗、低成本特性,依托該芯片打造的磐石DPU硬件板卡,較上一代硬件板卡功耗下降50%,成本下降50%。中國移動推出“磐石”DPU芯片以后,無疑將為其云服務(wù)帶來巨大收益,也將為其客戶帶來更高性價比的產(chǎn)品方案,這也給國內(nèi)其他云服務(wù)商帶來更大的壓力。
我們認為,“磐石”DPU芯片將有力推動我國DPU關(guān)鍵技術(shù)自主可控、硬件架構(gòu)持續(xù)優(yōu)化、生態(tài)布局不斷完善。中國移動在發(fā)布會上進一步指出,該芯片將廣泛應(yīng)用于中國移動數(shù)據(jù)中心建設(shè),支撐通用計算、智能計算等業(yè)務(wù)場景,為云計算、邊緣計算、大數(shù)據(jù)處理、AI大模型訓(xùn)練等領(lǐng)域提供更安全、可靠、高效的技術(shù)支持,助力我國大數(shù)據(jù)、人工智能、算力網(wǎng)絡(luò)高速發(fā)展。
眾所周知,打造一個DPU ASIC并不是一件很容易的事情,這也是為何大部分廠商基于FPGA打造相關(guān)解決方案。從目前看來,與ASIC的方案相比,基于FPGA的多芯片方案功耗高、成本高,且對用戶的研發(fā)要求高、人力投入大,還不能靈活移植各種應(yīng)用。更重要的是,這些方案采用的高性能FPGA芯片及配合的CPU芯片均是由海外廠商提供。
這就讓中國移動協(xié)同生態(tài)伙伴自研的這顆400Gbps國產(chǎn)DPU芯片,在國家大力發(fā)展新質(zhì)生產(chǎn)力戰(zhàn)略上顯得更有意義。
寫在最后
作為國內(nèi)領(lǐng)先的運營商,中國移動在過去幾年頻頻通過旗下的企業(yè)投身芯片自研。
例如在2023年6月,中國移動旗下的中移物聯(lián)正式發(fā)布全球首顆RISC-V架構(gòu)的LTE-Cat.1芯片(CM8610 LTE-Cat.1芯片)和中國移動首顆量產(chǎn)的蜂窩物聯(lián)網(wǎng)通信芯片(CM6620 NB-IoT芯片;當(dāng)年八月,中國移動又發(fā)布了一顆核心自主創(chuàng)新成果“破風(fēng)8676”可重構(gòu)5G射頻收發(fā)芯片。按照中國移動的描述,這些芯片不但能夠提升公司產(chǎn)品的性能表現(xiàn),同時還為國內(nèi)自主可控事業(yè)添磚加瓦。
在“磐石”DPU面世后,中國移動的自研芯片業(yè)務(wù)又上了一個新臺階。期待他們在未來給我們帶來更多的驚喜。
來源:半導(dǎo)體行業(yè)觀察
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。