自研AI服務(wù)器芯片,競(jìng)爭(zhēng)升級(jí)
有越來(lái)越多的互聯(lián)網(wǎng)和 IT 設(shè)備大廠開(kāi)始自研 AI 服務(wù)器芯片,最近,這一風(fēng)潮吹到了蘋(píng)果公司,據(jù)悉,該智能設(shè)備龍頭正在開(kāi)發(fā)用于 AI 服務(wù)器的定制芯片。
本文引用地址:http://cafeforensic.com/article/202404/458241.htm與微軟和谷歌等競(jìng)爭(zhēng)對(duì)手相比,蘋(píng)果在推出生成式 AI 方面進(jìn)展較慢,不過(guò),蘋(píng)果公司 CEO 庫(kù)克稱(chēng),AI 已經(jīng)在蘋(píng)果產(chǎn)品的幕后發(fā)揮作用,此前有媒體報(bào)道,蘋(píng)果計(jì)劃使用 AI 來(lái)提高搜索存儲(chǔ)在蘋(píng)果設(shè)備上的數(shù)據(jù)的能力。
今年 2 月,庫(kù)克在年度股東大會(huì)上表示,使用蘋(píng)果 AI 技術(shù)的功能包括 Vision Pro 的手部跟蹤工具和 Apple Watch 的心率警報(bào)。他還表示,MacBook 中的芯片能夠運(yùn)行 AI。
庫(kù)克表示,今年晚些時(shí)候,將與大家分享如何在生成式 AI 領(lǐng)域開(kāi)辟新天地。蘋(píng)果公司通常在 6 月份的年度開(kāi)發(fā)者大會(huì)上宣布新的軟件產(chǎn)品和功能。
知名分析師郭明錤在 2023 年 10 月發(fā)布的一份報(bào)告顯示,預(yù)計(jì)蘋(píng)果在 2023 和 2024 年分別采購(gòu) 2000–3000 臺(tái)、1.8 萬(wàn)–2 萬(wàn)臺(tái) AI 服務(wù)器,分別占同期全球 AI 服務(wù)器出貨量的 1.3% 和 5%。估算蘋(píng)果在 2023 和 2024 年需要分別支出約 6.2 億和 47.5 億美元,用于 AI 服務(wù)器采購(gòu)。
基于蘋(píng)果產(chǎn)品的功能需求,以及龐大的 AI 服務(wù)器資本支出,再結(jié)合該公司自研芯片的歷史,相信其自研 AI 服務(wù)器芯片是早晚的事,特別是蘋(píng)果放棄造車(chē),將資金和資源重點(diǎn)投入到 AI 技術(shù)和產(chǎn)品研發(fā)上,自研 AI 服務(wù)器芯片就更加順理成章了。
AI 服務(wù)器芯片的重要性
據(jù)統(tǒng)計(jì),2024 年,全球服務(wù)器出貨量約 1365.4 萬(wàn)臺(tái),其中,各家 ODM 的出貨以 AI 服務(wù)器最為強(qiáng)勁。分析師指出,2024 年,AI 服務(wù)器出貨年增長(zhǎng)率和占比都將達(dá)到兩位數(shù),這主要得益于生成式 AI 市場(chǎng)的增長(zhǎng)。
預(yù)計(jì)生成式 AI 市場(chǎng)規(guī)模將從 2022 年的 400 億美元增長(zhǎng)到 2032 年的 1.3 萬(wàn)億美元,年復(fù)合增長(zhǎng)率高達(dá) 41.7%。由于全球生成式 AI 市場(chǎng)商機(jī)與增長(zhǎng)潛力巨大,對(duì)訓(xùn)練 AI 系統(tǒng)的軟硬件需求量很大,使得市場(chǎng)對(duì) AI 服務(wù)器及相關(guān)芯片的需求不斷增長(zhǎng)。
AI 大模型迭代速度越來(lái)越快,廠商對(duì)智能算力的投入大幅增加,支持存儲(chǔ)和訓(xùn)練的高端 AI 服務(wù)器的需求激增,2023 和 2024 年,大模型訓(xùn)練所需數(shù)據(jù)量激增,AI 大模型廠商需要的是能夠支持存儲(chǔ)和訓(xùn)練的高端 AI 服務(wù)器,因此,各服務(wù)器廠商都在升級(jí)芯片規(guī)格、擴(kuò)大卡組數(shù)量。
與傳統(tǒng)服務(wù)器相比,AI 服務(wù)器在多個(gè)方面有所不同。硬件方面,AI 服務(wù)器采用異構(gòu)形式,內(nèi)存容量更大,可滿(mǎn)足不同場(chǎng)景需求;卡的數(shù)量方面,由于 AI 服務(wù)器需要大量計(jì)算,至少配置 4 個(gè) GPU 卡,有的需要 8 個(gè);系統(tǒng)結(jié)構(gòu)方面,AI 服務(wù)器在散熱、拓?fù)涞确矫孢M(jìn)行了專(zhuān)門(mén)設(shè)計(jì),以實(shí)現(xiàn)穩(wěn)定運(yùn)行。
自研 AI 服務(wù)器芯片熱潮
根據(jù)應(yīng)用場(chǎng)景不同,AI 服務(wù)器可分為深度學(xué)習(xí)訓(xùn)練型和智能應(yīng)用推理型;根據(jù)計(jì)算模塊結(jié)構(gòu)不同,AI 服務(wù)器可分為 CPU+GPU、CPU+ASIC、CPU+FPGA 等,其中,最常見(jiàn)的是 CPU+多塊 GPU 組合模式。
雖然 AI 服務(wù)器計(jì)算系統(tǒng)主要由 CPU 和 GPU 組成,但就目前而言,GPU 占據(jù)了較大市場(chǎng)份額,CPU 份額相對(duì)較小。在這種情況下,GPU 廠商的行業(yè)地位就很凸出了。然而,雖然市場(chǎng)很大,但能夠提供高性能 GPU 的廠商卻很少,目前,能夠形成一定市場(chǎng)規(guī)模的廠商只有 3 家:英偉達(dá),AMD 和英特爾。
基于這種市場(chǎng)供求關(guān)系,對(duì) AI 服務(wù)器具有很大需求量的互聯(lián)網(wǎng)和 IT 設(shè)備大廠紛紛開(kāi)始自研相關(guān)芯片,如亞馬遜 AWS,谷歌,Meta,微軟和蘋(píng)果。
亞馬遜 AWS 自研芯片始于 2015 年,當(dāng)時(shí)收購(gòu)了 Annapurna Labs,2018 年,AWS 推出了基于 Arm 架構(gòu)的 Graviton 處理器,這是其首款自研服務(wù)器芯片。2020 年,AWS 發(fā)布了 Graviton2。2023 年 12 月,AWS 推出了 Graviton4 和 Trainium2,Graviton4 的性能比 Graviton2 提升了 30%,Trainium2 在 AI 訓(xùn)練速度上提升了 4 倍。
2016 年,谷歌推出了自研的 AI 張量處理單元(TPU),這些專(zhuān)為機(jī)器學(xué)習(xí)設(shè)計(jì)的芯片為谷歌云平臺(tái)上提供了 AI 加速能力,2022 年前后,谷歌開(kāi)始研發(fā)基于 Arm 架構(gòu)的服務(wù)器 CPU,2024 年 4 月,谷歌發(fā)布了首款自研 Arm 構(gòu)架 CPU——Axion,并宣布該芯片已經(jīng)在內(nèi)部使用。
2020 年,微軟開(kāi)始為其 Azure 云服務(wù)定制芯片,2023 年 11 月,微軟推出了兩款自研芯片——Maia100 和 Cobalt100。Maia100 是一款專(zhuān)為大語(yǔ)言模型訓(xùn)練和推理而設(shè)計(jì)的芯片,采用臺(tái)積電 5nm 制程,Cobalt100 是一款基于 Arm 架構(gòu)的 128 核服務(wù)器 CPU。
今年 4 月初,Meta 發(fā)布了新一代 AI 訓(xùn)練和推理加速器 MTIA,其計(jì)算和內(nèi)存帶寬是上一代產(chǎn)品的兩倍多,最新版本芯片有助于驅(qū)動(dòng) Facebook 和 Instagram 上的排名和推薦廣告模型。
自研 AI 芯片的好處
互聯(lián)網(wǎng)和 IT 設(shè)備大廠自研 AI 芯片的核心動(dòng)機(jī)是降低成本。當(dāng)然,自研芯片的前提是自身有很大的需求量,否則自研沒(méi)有意義。這些大廠的巨量規(guī)模能夠分?jǐn)傂酒邪l(fā)成本,隨著產(chǎn)量的增加,單位芯片的成本會(huì)降低。通過(guò)自研,這些大廠可以直接控制芯片的設(shè)計(jì)和生產(chǎn)成本,從而減少對(duì)外部供應(yīng)商的依賴(lài)。這種成本控制能力使它們能夠更有效地管理運(yùn)營(yíng)支出,提高整體利潤(rùn)率。自研芯片還可以?xún)?yōu)化供應(yīng)鏈管理,減少中間環(huán)節(jié),從而降低采購(gòu)成本和物流成本。此外,自研芯片可以根據(jù)云服務(wù)的具體需求進(jìn)行定制,避免不必要的功能和性能過(guò)剩,進(jìn)一步降低生產(chǎn)成本。
通過(guò)自研芯片,這些大廠能夠掌握更多的議價(jià)權(quán)和定價(jià)權(quán),避免成為英特爾、英偉達(dá)等傳統(tǒng)芯片商的「打工仔」。這不僅有助于提升利潤(rùn)空間,還能夠在價(jià)格競(jìng)爭(zhēng)中保持靈活性,根據(jù)市場(chǎng)情況調(diào)整定價(jià)策略。
自研芯片還可以幫助這些大廠完善軟硬件生態(tài)系統(tǒng),它們能夠根據(jù)自家的業(yè)務(wù)需求和特點(diǎn)定制芯片,從而實(shí)現(xiàn)硬件與軟件之間的無(wú)縫對(duì)接和優(yōu)化。自研芯片還可以保持技術(shù)創(chuàng)新,隨著云計(jì)算、大數(shù)據(jù)、人工智能的快速發(fā)展,數(shù)據(jù)中心面臨的工作負(fù)載越來(lái)越多樣化,自研芯片使這些大廠能夠快速響應(yīng)市場(chǎng)變化,及時(shí)推出符合新需求的產(chǎn)品和服務(wù)。
自研 AI 服務(wù)器芯片的難度有多大?
AI 服務(wù)器芯片屬于超大規(guī)模集成電路,除了需要大量資金投入,其設(shè)計(jì)和制造的難度都很大,需要能夠精準(zhǔn)把握技術(shù)路線選擇,另外,在團(tuán)隊(duì)建設(shè),以及與晶圓代工廠合作方面,需要具備業(yè)界頂級(jí)水平,才能把芯片做好。
AI 服務(wù)器需要訓(xùn)練和推理兩類(lèi)處理器和系統(tǒng),如何規(guī)劃技術(shù)發(fā)展路線是關(guān)鍵,也就是說(shuō),是發(fā)展訓(xùn)練,還是推理,或是兼而有之,是不同的技術(shù)路線,這要考慮到市場(chǎng)現(xiàn)狀及未來(lái)的發(fā)展情況。
訓(xùn)練芯片主要用于 AI 算法訓(xùn)練,即在云端將一系列經(jīng)過(guò)標(biāo)記的數(shù)據(jù)輸入算法模型進(jìn)行計(jì)算,不斷調(diào)整、優(yōu)化算法參數(shù),直至算法識(shí)別準(zhǔn)確率達(dá)到較高水平。推理芯片主要用于 AI 算法推理,將在云端訓(xùn)練好的算法模型進(jìn)行裁剪、優(yōu)化變「輕」之后,進(jìn)入應(yīng)用階段,輸入數(shù)據(jù)直接得出識(shí)別結(jié)果。
不同用途(訓(xùn)練和推理)、不同應(yīng)用場(chǎng)景(端-邊-云)對(duì) AI 芯片有著不同的要求。訓(xùn)練芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延時(shí)(完成推理過(guò)程所需要的時(shí)間盡可能短)、低功耗?!付?邊-云」這 3 個(gè)環(huán)節(jié)對(duì) AI 芯片的要求也不同,在端和邊上進(jìn)行的大部分是 AI 推理,大部分的訓(xùn)練是在云和數(shù)據(jù)中心進(jìn)行的,訓(xùn)練過(guò)程對(duì)時(shí)延沒(méi)有什么要求,需要保證 AI 芯片在盡可能保證較高算力的情況下,功耗盡量低。
目前,英偉達(dá) GPU 主導(dǎo)的 AI 訓(xùn)練市場(chǎng)最為火熱,然而,隨著 AI 應(yīng)用的深入展開(kāi),巨大的推理芯片市場(chǎng)會(huì)逐漸展現(xiàn)出來(lái),該市場(chǎng)比我們目前看到的要大得多,沒(méi)有任何一家廠商的芯片能夠滿(mǎn)足這個(gè)市場(chǎng)需求。這就是前文提到的亞馬遜、谷歌、微軟,甚至英偉達(dá)自研 CPU 的原因所在。
有統(tǒng)計(jì)顯示,AI 芯片市場(chǎng)包括約 15% 的訓(xùn)練,45% 的數(shù)據(jù)中心推理和 40% 的邊緣推理。在這樣的行業(yè)背景下,大廠自研芯片,必須找準(zhǔn)方向,權(quán)衡好中短期和中長(zhǎng)期應(yīng)用需求,分配好訓(xùn)練芯片和推理芯片的研發(fā)投入。
芯片研發(fā)團(tuán)隊(duì)建設(shè)也很重要。
技術(shù)團(tuán)隊(duì)搭建,是一個(gè)長(zhǎng)期積累的過(guò)程,需要時(shí)間,難度不小,因此,多家互聯(lián)網(wǎng)大廠對(duì)芯片設(shè)計(jì)外包服務(wù)的依賴(lài)度較高,這恐怕只能解決短期、少量需求問(wèn)題,長(zhǎng)期來(lái)看,還需要技術(shù)積累和芯片團(tuán)隊(duì)建設(shè)。
下面看一下自研芯片大廠與晶圓代工廠的合作關(guān)系。
AI 服務(wù)器芯片采用的都是最先進(jìn)制程工藝,這方面,考慮到三星電子的先進(jìn)制程(4nm 和 3nm)良率遲遲提升不上去,臺(tái)積電幾乎是唯一的晶圓代工廠選擇。
根據(jù)專(zhuān)門(mén)研究半導(dǎo)體公司的金融分析師 Dan Nystedt 的估計(jì),2023 年,蘋(píng)果公司占臺(tái)積電收入的 25%(175.2 億美元)。
2023 年,臺(tái)積電的前 10 名客戶(hù)占其收入的 91%,高于 2022 年的 82%,這些公司包括聯(lián)發(fā)科、AMD、高通、博通、索尼和 Marvell??梢钥闯?,沒(méi)有一家互聯(lián)網(wǎng)大廠,除了蘋(píng)果,都是 IC 設(shè)計(jì)大廠。
多年來(lái),蘋(píng)果一直是臺(tái)積電的頭號(hào)客戶(hù),而且,在未來(lái)多年內(nèi)將一直是臺(tái)積電的第一大客戶(hù)。據(jù)悉,蘋(píng)果自研的 AI 服務(wù)器芯片將采用臺(tái)積電的 3nm 制程工藝,將在 2025 下半年生產(chǎn),那時(shí),臺(tái)積電的 3nm 制程將升級(jí)到「N3E」版本。
對(duì)于互聯(lián)網(wǎng)和 IT 設(shè)備大廠來(lái)說(shuō),自研的 AI 服務(wù)器芯片,必須找到足夠好的晶圓代工廠生產(chǎn),要想保持長(zhǎng)期、穩(wěn)定發(fā)展,就必須對(duì)晶圓代工廠的制程工藝有足夠的了解。這方面,與谷歌、亞馬遜和微軟相比,蘋(píng)果具有先天優(yōu)勢(shì),因?yàn)樵撝悄茉O(shè)備巨頭是臺(tái)積電多年的第一大客戶(hù),雙方有深入了解,能夠更好地把握好芯片生產(chǎn)規(guī)模、良率、成本,可以實(shí)現(xiàn)無(wú)縫過(guò)渡。
芯片設(shè)計(jì)服務(wù)商機(jī)無(wú)限
如前文所述,互聯(lián)網(wǎng)大廠自研 AI 服務(wù)器芯片,由于研發(fā)難度很大,這些大廠短時(shí)間內(nèi)又難以形成有足夠技術(shù)和經(jīng)驗(yàn)積累的團(tuán)隊(duì),因此,選擇外包,找芯片設(shè)計(jì)服務(wù)合作伙伴就成為了不二選擇。
例如,谷歌開(kāi)發(fā)的兩種 Arm 服務(wù)器 CPU,其中一款代號(hào)為「Maple」,是基于 Marvell 的技術(shù)。
另外,谷歌自研的 TPU 用于取代英偉達(dá)的 GPU,谷歌設(shè)計(jì)的芯片藍(lán)圖,都由博通進(jìn)行物理實(shí)現(xiàn)。物理實(shí)現(xiàn)是將邏輯電路轉(zhuǎn)換為有物理連接的電路圖的過(guò)程,博通繪制好物理版圖后,再送到臺(tái)積電流片,流片成功后的芯片正式進(jìn)入制造環(huán)節(jié),整個(gè)過(guò)程都需要博通深度參與。
數(shù)據(jù)中心中成百上千個(gè)高性能處理器共同運(yùn)作,它們之間的通信就成為了大問(wèn)題,這也是當(dāng)下數(shù)據(jù)中心性能損耗的主要來(lái)源。
博通是通信巨頭,最善于解決通信帶寬問(wèn)題,在全球 50GB/s 的 SerDes 市場(chǎng)中,博通占據(jù)了 76% 的份額,其 SerDes 接口通過(guò)將低速并行數(shù)據(jù)轉(zhuǎn)換為高速串行數(shù)據(jù),然后在接收端轉(zhuǎn)換回并行數(shù)據(jù)。通過(guò)這樣的操作,數(shù)據(jù)可以從一個(gè) TPU 高速轉(zhuǎn)移到另一個(gè) TPU,大大提升了傳輸效率。
有了博通的幫助,谷歌自研芯片的項(xiàng)目進(jìn)展速度明顯加快了,TPU 從設(shè)計(jì)開(kāi)始,僅用 15 個(gè)月就部署進(jìn)了數(shù)據(jù)中心。
隨著大模型市場(chǎng)競(jìng)爭(zhēng)快速展開(kāi),谷歌大幅增加了 TPU 設(shè)計(jì)服務(wù)訂單,使博通一躍成為僅次于英偉達(dá)的 AI 芯片廠商,Semianalysis 預(yù)估,AI 芯片會(huì)在 2024 年給博通帶來(lái) 80 億~90 億美金的營(yíng)收。
不止谷歌,Meta、亞馬遜、微軟等大廠都在加大自研 AI 服務(wù)器芯片的投入力度,找芯片設(shè)計(jì)服務(wù)外包合作伙伴的需求只增不減,此時(shí),以博通、Marvell 為代表的芯片設(shè)計(jì)服務(wù)公司的商機(jī)會(huì)越來(lái)越多。
評(píng)論