芯片大佬領(lǐng)銜,攻英偉達(dá)漏洞
最近,芯片界傳奇人物、處理器設(shè)計(jì)大佬、Tenstorrent 現(xiàn)任首席執(zhí)行官吉姆·凱勒(Jim Keller)在接受采訪時(shí)表示,英偉達(dá)沒有很好地服務(wù)于很多市場,因此,Tenstorrent 和其它新創(chuàng) AI 處理器研發(fā)公司是有機(jī)會的。
本文引用地址:http://cafeforensic.com/article/202407/461451.htmJim Keller 曾任職于多家大牌企業(yè),包括 AMD,英特爾、蘋果和特斯拉。1998~1999 年,Jim Keller 在 AMD 主導(dǎo)了支撐速龍系列處理器的 K7/K8 架構(gòu)開發(fā)工作,2008~2012 年,在蘋果牽頭研發(fā)了 A4、A5 處理器,2012~2015 年,在 AMD 主持 K12 Arm 項(xiàng)目和 Zen 架構(gòu)項(xiàng)目,2016~2018 年,在特斯拉研發(fā) FSD 自動駕駛芯片,2018~2020 年,在英特爾參與了神秘項(xiàng)目。
現(xiàn)在,Jim Keller 在 Tenstorrent 領(lǐng)導(dǎo) AI 處理器的開發(fā),可以為英偉達(dá)昂貴的 GPU 提供價(jià)格合理的替代品,英偉達(dá)的 GPU 每個售價(jià) 20,000 ~ 30,000 美元或更多,Tenstorrent 稱,其 Galaxy 系統(tǒng)的效率是英偉達(dá) DGX 的 3 倍,成本低 33%。做高性能 AI 應(yīng)用處理器的產(chǎn)品替代是 Tenstorrent 工作的一部分,但不是全部,該公司的業(yè)務(wù)宗旨是服務(wù)英偉達(dá)未能解決的市場痛點(diǎn),尤其是在邊緣計(jì)算領(lǐng)域。
邊緣計(jì)算 AI 地位提升
隨著海量數(shù)據(jù)持續(xù)增加,以及對計(jì)算和存儲系統(tǒng)實(shí)時(shí)性和安全性要求的提升,數(shù)據(jù)中心已經(jīng)不能滿足市場和客戶的需求,市場要求相關(guān)軟硬件系統(tǒng)提供商找到更快捷的方式來服務(wù)客戶,以提高運(yùn)營效率并降低成本。在邊緣運(yùn)行 AI 工作負(fù)載的邊緣到云解決方案有助于滿足這一需求,將算力放在靠近數(shù)據(jù)創(chuàng)建點(diǎn)的網(wǎng)絡(luò)邊緣,對于要求近乎實(shí)時(shí)的應(yīng)用至關(guān)重要,在本地設(shè)備上處理算法和數(shù)據(jù)等,而不是將這些工作負(fù)載傳送到云或數(shù)據(jù)中心。
隨著 5G 和物聯(lián)網(wǎng)的發(fā)展,AI 芯片在邊緣運(yùn)算領(lǐng)域的應(yīng)用前景十分廣闊,例如,自動駕駛汽車、智慧城市等場景,都需要在終端裝置上進(jìn)行實(shí)時(shí)的 AI 推理。為此,多家廠商紛紛推出了專用于邊緣推理的 AI 芯片。
在制造業(yè),本地運(yùn)行的 AI 模型可以快速響應(yīng)來自傳感器和攝像頭的數(shù)據(jù),以執(zhí)行重要任務(wù)。例如,汽車制造商使用計(jì)算機(jī)視覺掃描裝配線,以在車輛離開工廠之前識別車輛的潛在缺陷。在這樣的應(yīng)用中,非常低的延遲和始終在線的要求使得在整個網(wǎng)絡(luò)中來回傳送數(shù)據(jù)變得不切實(shí)際。即使是少量的延遲也會影響產(chǎn)品質(zhì)量。另外,低功耗設(shè)備無法處理大的 AI 工作負(fù)載,例如訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)所依賴的模型。從邊緣到云的整體解決方案結(jié)合了兩端的優(yōu)勢,后端云為復(fù)雜的 AI 工作負(fù)載提供可擴(kuò)展性和處理能力,前端邊緣設(shè)備將數(shù)據(jù)和分析緊密地結(jié)合在一起,以最大限度地減少延遲。
以 Arduino 低功耗邊緣設(shè)備為例,許多這類設(shè)備的成本不到 100 美元,用戶可以組合運(yùn)行機(jī)器學(xué)習(xí)模型的幾臺或數(shù)千臺設(shè)備。例如,一家農(nóng)業(yè)企業(yè)使用 Arduino 解決方案來最大限度地提高作物產(chǎn)量,方案涉及傳感器,這些傳感器為邊緣設(shè)備提供土壤濕度和風(fēng)況等數(shù)據(jù),以確定作物所需的水量。該技術(shù)可以幫助農(nóng)民避免過度澆水,并降低電動水泵的運(yùn)行成本。
再例如,一家依賴精密車床的制造商將傳感器與 Arduino 設(shè)備結(jié)合使用,以檢測異常情況,如微小的振動,這些振動預(yù)示著設(shè)備很可能出現(xiàn)問題。對于企業(yè)來說,定期維護(hù)比遇到導(dǎo)致生產(chǎn)停止的意外故障更具成本效益。
以上這些應(yīng)用顯示出邊緣計(jì)算的價(jià)值和作用,從目前的應(yīng)用發(fā)展情況來看,這樣的應(yīng)用需求越來越多,對智能化控制的需求也在增加,這就是邊緣 AI 的價(jià)值所在。而像英偉達(dá)這樣的企業(yè),其 GPU 等高性能芯片主要關(guān)注的是云計(jì)算和數(shù)據(jù)中心市場的 AI 服務(wù)器,對邊緣 AI 市場很少關(guān)注。基于此,Tenstorrent 等 AI 芯片公司就有機(jī)會了。
更多 AI 芯片公司挑戰(zhàn)英偉達(dá)
隨著各路玩家競相投入,AI 芯片市場呈現(xiàn)百家爭鳴之勢。據(jù)統(tǒng)計(jì),2019 年全球 AI 芯片新創(chuàng)公司數(shù)量就已經(jīng)超過 80 家,總?cè)谫Y額超過 35 億美元。研究機(jī)構(gòu)預(yù)估,到 2025 年,ASIC 將在 AI 芯片市場中占據(jù) 43% 的比重,GPU 占 29%,F(xiàn)PGA 占 19%,CPU 占 9%。
一批 AI 芯片新創(chuàng)公司正在崛起,前文提到的 Tenstorrent 就是典型代表;Cerebras Systems 則打造了有史以來最大的芯片 WSE(Wafer Scale Engine),搭載了 1.2 兆個晶體管,讓 AI 運(yùn)算達(dá)到了前所未有的規(guī)模;明星公司 Groq 則由前 Google 工程師創(chuàng)立,專注于打造用于 AI 推理的低功耗處理器。
這里要介紹一下 Tenstorrent 的技術(shù)和產(chǎn)品,它特別看重低功耗,更適合邊緣 AI 應(yīng)用。據(jù)日經(jīng)新聞報(bào)道,Tenstorrent 有望在 2024 年底發(fā)布其第二代多用途 AI 處理器,但沒有透露處理器的名稱。根據(jù)該公司 2023 年秋天發(fā)布的路線圖,打算發(fā)布其 Black Hole 獨(dú)立 AI 處理器和 Quasar 低功耗、低成本芯片。
早些年,但擔(dān)任 Tenstorrent 公司 CTO 的時(shí)候,Jim Keller 就很看好低功耗的 RISC-V 架構(gòu),其團(tuán)隊(duì)基于此自研了 Ascalon CPU。據(jù)悉,該公司的新一代 Black Hole AI 芯片是基于 SiFive 的 X280 RISC-V 核設(shè)計(jì)開發(fā)的。
Tenstorrent 表示,即將推出的處理器之所以具有高效率和更低的成本,很重要的一個原因是避免使用高帶寬內(nèi)存(HBM),改用了 GDDR6,這對于為 AI 推理設(shè)計(jì)的入門級 AI 處理器來說是很匹配的。也就是說,該公司的 AI 芯片架構(gòu)對內(nèi)存帶寬的消耗低于競爭對手,因此成本較低。
雖然 Tenstorrent 尚未搶占 AI 處理器市場的重要份額,但該公司具有成本效益且可擴(kuò)展的 AI 解決方案,可以滿足英偉達(dá)無法觸及的多種應(yīng)用需求。不止 Tenstorrent,多家新創(chuàng) AI 芯片公司也將在未來幾個季度推出類似應(yīng)用的·AI 芯片產(chǎn)品??傊?,不與英偉達(dá)正面競爭,越來越多的 AI 市場新進(jìn)入者更看重那些沒有被「綠色團(tuán)隊(duì)」占據(jù)的市場。
AI 芯片的創(chuàng)新一直在進(jìn)行著,除了算力的提升,AI 芯片在架構(gòu)、功耗、整合度等方面還有很大的優(yōu)化空間。例如,通過先進(jìn)的封裝技術(shù),多個 AI 芯片可緊密整合,可大幅提升系統(tǒng)帶寬和能效。AI 專用的內(nèi)存技術(shù),如 HBM、壓縮內(nèi)存等,也將得到更廣泛的應(yīng)用。
挑戰(zhàn)英偉達(dá)生態(tài)系統(tǒng)
除了芯片技術(shù)創(chuàng)新,AI 的生態(tài)系統(tǒng)建設(shè)也很重要。英偉達(dá)的 CUDA 平臺經(jīng)過多年發(fā)展,已經(jīng)形成了龐大的開發(fā)者社區(qū)和豐富的軟件資源,這是其競爭力的重要保證。
其他廠商也紛紛跟進(jìn),圍繞自己的 AI 芯片建構(gòu)生態(tài)系統(tǒng),爭取開發(fā)者的支持。Google 推出了基于 TPU 的 TensorFlow 深度學(xué)習(xí)框架,并開源了相關(guān)代碼;AMD 收購了 Xilinx;英特爾推出了 OneAPI 開發(fā)工具套件,試圖統(tǒng)一 CPU、GPU 和 AI 加速器的程序開發(fā)接口。
Arm、英特爾、高通、三星等合作組建了統(tǒng)一加速基金會 (UXL),目標(biāo)之一就是取代英偉達(dá)的方案。
在 AI 系統(tǒng)當(dāng)中,芯片互聯(lián)技術(shù)很關(guān)鍵,特別是數(shù)據(jù)傳輸帶寬,對系統(tǒng)性能的發(fā)揮起著重要作用。英偉達(dá)在這方面一直在建設(shè)自家生態(tài),該公司最新的 Blackwell GPU 在多芯片互連、網(wǎng)絡(luò)互連方面,將使用新推出的 NVLink 標(biāo)準(zhǔn)協(xié)議,在數(shù)據(jù)中心網(wǎng)絡(luò)中,英偉達(dá)使用的是自家的 InfiniBand 總線。
對于英偉達(dá)這種封閉的生態(tài)系統(tǒng),Jim Keller 很看不慣,他是開放技術(shù)的忠實(shí)擁躉,對于那些封閉技術(shù)深惡痛絕。
Jim Keller 提出,英偉達(dá)不應(yīng)該使用私有的 NVLink 標(biāo)準(zhǔn)協(xié)議,應(yīng)該換成開放的以太網(wǎng)標(biāo)準(zhǔn),他還認(rèn)為,在數(shù)據(jù)中心網(wǎng)絡(luò)中,英偉達(dá)不該使用 InfiniBand,也應(yīng)換成以太網(wǎng),因?yàn)?Infiniband 雖然具備低延遲、高帶寬(最高可達(dá) 200Gb/s)特性,但以太網(wǎng)能做到 400Gb/s,甚至 800Gb/s。
實(shí)際上,AMD、博通、英特爾、Meta、微軟、甲骨文等巨頭正在合作開發(fā)下一代超高速以太網(wǎng) (Utlra Ethernet),其吞吐量更高,更適合 AI、HPC 應(yīng)用。
那么,新的以太網(wǎng)技術(shù)能否發(fā)展起來,并抗衡英偉達(dá)的互聯(lián)技術(shù)呢?
2023 年 7 月,多家行業(yè)巨頭成立了超級以太網(wǎng)聯(lián)盟(Ultra Accelerator Link,UALink),旨在與英偉達(dá)的 InfiniBand 抗衡。
AMD 正在為 UALink 努力貢獻(xiàn)更廣泛的 Infinity Fabric 共享內(nèi)存協(xié)議和 GPU 專用 xGMI,所有其他參與者都同意使用 Infinity Fabric 作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理 Sachin Katti 表示,由 AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特爾、Meta Platforms 和 Microsoft 組成的 Ultra Accelerator Link「推廣小組」正在考慮使用以太網(wǎng)的第一層傳輸協(xié)議和 Infinity Fabric 作為將 GPU 內(nèi)存鏈接到類似于 CPU 上的 NUMA 的巨大共享空間的一種方式。
UALink 聯(lián)盟成員相信,系統(tǒng)制造商將創(chuàng)建使用 UALink 的設(shè)備,并允許在客戶構(gòu)建他們的 Pod 時(shí)將來自許多參與者的加速器放入這些設(shè)備中。您可以有一個裝有 AMD GPU 的 pod,一個裝有英特爾 GPU 的 pod,另一個裝有一些來自其他廠商的自定義加速器的 pod。該設(shè)備可以實(shí)現(xiàn)服務(wù)器設(shè)計(jì)的通用性,就像 Meta Platforms 和 Microsoft 發(fā)布的開放加速器模塊(OAM)規(guī)范一樣,系統(tǒng)板上的加速器插槽具備通用性。
據(jù) IDC 統(tǒng)計(jì),在超大規(guī)模企業(yè)、云構(gòu)建者、HPC 中心和大型企業(yè)中,200Gb/s 和 400Gb/s 網(wǎng)絡(luò)的建設(shè)已經(jīng)足夠多,InfiniBand 和以太網(wǎng)市場可以同時(shí)增長。
以太網(wǎng)無處不在——邊緣側(cè)和數(shù)據(jù)中心——這與 InfiniBand 不同,后者專門用于數(shù)據(jù)中心。IDC 表示,2023 年第三季度,數(shù)據(jù)中心以太網(wǎng)交換機(jī)的銷售額同比增長了 7.2%。
在 2022 年第三季度到 2023 年第三季度期間,數(shù)據(jù)中心以太網(wǎng)交換機(jī)的市場規(guī)模約為 200 億美元,如果交換占 InfiniBand 收入的一半,那么數(shù)據(jù)中心以太網(wǎng)交換規(guī)模仍比 InfiniBand 交換大 7 倍左右,并且,有越來越多的 AI 集群遷移到以太網(wǎng),它們正在蠶食 InfiniBand 的市占率。
IDC 表示,在以太網(wǎng)交換機(jī)市場的非數(shù)據(jù)中心部分,銷售額增長更快,2023 年第三季度增長了 22.2%,前三個季度總共增長了 36.5%,因?yàn)楹芏喙旧壛藞@區(qū)網(wǎng)絡(luò)。
2023 年第三季度,數(shù)據(jù)中心、園區(qū)和邊緣側(cè)的以太網(wǎng)交換機(jī)市場規(guī)模達(dá)到 117 億美元,同比增長了 15.8%。配套以太網(wǎng)路由器市場下降了 9.4%,這并不奇怪,因?yàn)槁酚善髟絹碓蕉嗟厥褂冒ń粨Q和路由功能的商用芯片構(gòu)建。
在數(shù)據(jù)中心,200Gb/s 和 400Gb/s 以太網(wǎng)交換機(jī)的銷售額同比增長了 44%,端口出貨量同比增長了 63.9%。數(shù)據(jù)中心、邊緣側(cè)和園區(qū)的 100Gb/s 以太網(wǎng)交換機(jī)的銷售額增長了 6%。
結(jié)語
英偉達(dá)在云計(jì)算和數(shù)據(jù)中心 AI 系統(tǒng)方面的優(yōu)勢非常明顯,無論是芯片行業(yè)巨頭,還是新創(chuàng)公司,要想在這一賽道與英偉達(dá) PK,難度很大,特別是新創(chuàng)公司,前些年以英偉達(dá) GPU 為競品,走同一賽道的幾家小公司,日子過得都不太好,有的甚至在破產(chǎn)邊緣。只有 AMD、英特爾這樣的大廠可以在同一賽道與英偉達(dá)玩一玩。
云計(jì)算和數(shù)據(jù)中心 AI 賽道不好追,那就主攻低功耗、低成本的邊緣側(cè)應(yīng)用市場,這也是一個很大的市場,且發(fā)展空間廣闊,而目前市場上對口、適用的芯片又不多。在這種情況下,誰動手早,盡快拿出實(shí)用的產(chǎn)品,誰就能在未來競爭中占得先機(jī)。
除了 AI 芯片,互聯(lián)技術(shù)和標(biāo)準(zhǔn)也是一個很有潛力的投資方向,而且在數(shù)據(jù)中心和邊緣側(cè)都有機(jī)會。英偉達(dá)的互聯(lián)和總線技術(shù)不可能面面俱到,隨著 AI 技術(shù)不斷滲透到各行各業(yè),以及各個性能、功耗和成本應(yīng)用層級,芯片和系統(tǒng)互聯(lián)的發(fā)展空間會越來越大,大大小小的公司都在摩拳擦掌。
評論