云巨頭,芯片十年
Annapurna Labs 聯(lián)合創(chuàng)始人 Nafea Bshara 了解半導(dǎo)體并欣賞優(yōu)質(zhì)紅酒。亞馬遜杰出工程師James Hamilton(詹姆斯·漢密爾頓)熱衷于改變行業(yè)的想法,并且喜歡與聰明的企業(yè)家會(huì)面。
就這樣,10 年前,即 2013 年秋天,他們來到了西雅圖派克市場歷史悠久的 Virginia Inn 餐廳和酒吧,進(jìn)行了一場最終改變亞馬遜云業(yè)務(wù)進(jìn)程的對話。
他們的會(huì)面以及亞馬遜最終收購Annapurna Labs ,加速了這家科技巨頭創(chuàng)建自己的處理器的計(jì)劃,為其當(dāng)前人工智能戰(zhàn)略的一個(gè)關(guān)鍵組成部分奠定了基礎(chǔ)。
亞馬遜的定制芯片,包括用于先進(jìn)人工智能的芯片,本周將成為人們關(guān)注的焦點(diǎn),因?yàn)閬嗰R遜網(wǎng)絡(luò)服務(wù)試圖在拉斯維加斯舉行的re:Invent 會(huì)議上表明自己在人工智能新時(shí)代的地位。
兩周前,微軟宣布了自己的一對定制芯片,其中包括在 OpenAI 的幫助下設(shè)計(jì)的Maia AI Accelerator ,而在這家 ChatGPT 制造商最近陷入混亂之前。微軟將其定制芯片描述為優(yōu)化和最大化其云基礎(chǔ)設(shè)施性能的最終“拼圖”。
在人工智能應(yīng)用中,ChatGPT 已經(jīng)讓亞馬遜緊隨其后,特別是當(dāng) OpenAI 的聊天機(jī)器人與 Alexa 語音助手的對話能力進(jìn)行比較時(shí)。
正如亞馬遜首席執(zhí)行官安迪·賈西(Andy Jassy)所說,在人工智能的“中間層”中,亞馬遜希望通過 AWS Bedrock 脫穎而出,提供對多種大型語言模型的訪問。
但亞馬遜戰(zhàn)略的基礎(chǔ)是其定制的人工智能芯片Trainium和Inferentia,用于訓(xùn)練和運(yùn)行大型人工智能模型。
它們是大型云平臺(tái)制造自己的芯片的趨勢的一部分,經(jīng)過優(yōu)化,可以在世界各地的數(shù)據(jù)中心以更高的性能和更低的成本運(yùn)行。盡管微軟剛剛公開了其計(jì)劃,但谷歌已經(jīng)開發(fā)了多代張量處理單元,谷歌云將其用于 機(jī)器學(xué)習(xí)工作負(fù)載,據(jù)報(bào)道,谷歌正在開發(fā) 自己的基于 Arm 的芯片。
在人工智能領(lǐng)域,這些芯片提供了通用芯片的替代品。例如,Jassy 在 8 月份的公司季度財(cái)報(bào)電話會(huì)議上表示,AWS 客戶已經(jīng)接受了 Nvidia 廣泛使用的 H100 GPU,作為亞馬遜 EC2 P5 實(shí)例的一部分,用于深度學(xué)習(xí)和高性能計(jì)算。
“然而,迄今為止,市場上只有一種對每個(gè)人來說都是可行的選擇,而且供應(yīng)一直很稀缺,”賈西當(dāng)時(shí)補(bǔ)充道?!霸偌由衔覀冞^去幾年積累的芯片專業(yè)知識(shí),促使我們幾年前開始開發(fā)自己的定制人工智能芯片。”
亞馬遜的人工智能芯片是定制芯片系列的一部分,這一系列可以追溯到十年前 Bshara 和 Hamilton 在角落攤位上的對話。
“這就是未來?!?/p>
漢密爾頓是一位廣受尊敬的工程師,擔(dān)任亞馬遜高級(jí)副總裁,于 2010 年從微軟加入這家云巨頭。他于 2021年被任命為亞馬遜高級(jí)領(lǐng)導(dǎo)團(tuán)隊(duì)成員,并繼續(xù)直接向賈西匯報(bào)。
漢密爾頓最近回到弗吉尼亞旅館接受 GeekWire 采訪時(shí)表示,他最初是在認(rèn)識(shí)到 Amazon S3(簡單存儲(chǔ)服務(wù))在線服務(wù)的潛力后才被亞馬遜吸引的。諷刺的是,在微軟的 Bill Gates 和 Ray Ozzie 讓他針對 S3 編寫一個(gè)應(yīng)用程序進(jìn)行實(shí)驗(yàn)之后,他才意識(shí)到這一點(diǎn)。
“我在會(huì)議之前收到了這張賬單——7.23 美元。我花了 7.23 美元用于計(jì)算、編寫這個(gè)應(yīng)用程序并測試它,”他回憶道?!八淖兞宋业纳?。我剛剛意識(shí)到,這就是未來?!?/p>
這是云中開發(fā)人員和企業(yè)可以獲得的價(jià)格和性能優(yōu)勢的早期跡象。但在亞馬遜工作幾年后,漢密爾頓意識(shí)到公司需要再次飛躍。
James Hamilton 出席 2016 年 AWS re:Invent 大會(huì)
就在 2013 年與 Bshara 會(huì)面前幾周,漢密爾頓為杰夫·貝佐斯和當(dāng)時(shí)的 AWS 首席執(zhí)行官賈西(亞馬遜稱他們?yōu)椤皊ix-pager”)撰寫了一篇內(nèi)部論文,為 AWS 開始開發(fā)自己的定制芯片提供了理由。
“如果我們不制造芯片,我們就會(huì)失去創(chuàng)新的控制,”漢密爾頓回憶起當(dāng)時(shí)的想法,并將此舉描述為隨著服務(wù)器過渡到片上系統(tǒng)設(shè)計(jì),公司的下一步自然發(fā)展。
在他看來,亞馬遜需要在芯片層面進(jìn)行創(chuàng)新,以保持對其基礎(chǔ)設(shè)施和成本的控制;避免在關(guān)鍵服務(wù)器組件方面依賴其他公司;通過將安全性和工作負(fù)載優(yōu)化等功能直接構(gòu)建到硬件中,為客戶提供更多價(jià)值。
隨著 Arm 處理器在移動(dòng)和物聯(lián)網(wǎng)設(shè)備中的應(yīng)用量越來越大,Hamilton 相信這將帶來更好的服務(wù)器處理器以及更多的研發(fā)投資。
漢密爾頓工作早起,經(jīng)常在晚上在當(dāng)?shù)氐木瓢珊筒宛^與初創(chuàng)公司、客戶和供應(yīng)商會(huì)面,了解他們的工作情況。當(dāng)時(shí),他以環(huán)游世界和在船上工作而聞名,他會(huì)在辦公室和碼頭之間選擇可以停放自行車的地方。
Bshara 于 2011 年在以色列創(chuàng)辦了 Annapurna Labs,合作伙伴包括 Hrvoye (Billy) Bilic 和芯片設(shè)計(jì)公司 Galileo Technologies Ltd 的創(chuàng)始人 Avigdor Willenz。
Annapurna Labs 聯(lián)合創(chuàng)始人 Nafea Bshara 現(xiàn)在是 AWS 副總裁和杰出工程師。
他是由一位共同的朋友介紹給漢密爾頓的,他們同意按照漢密爾頓的傳統(tǒng)一起度過歡樂時(shí)光。Bshara 記得在當(dāng)?shù)氐?UPS 商店打印了一系列幻燈片,然后將自己放在展位上,以免在向漢密爾頓展示時(shí)將內(nèi)容透露給餐廳的其他人。
Hamilton 回憶起這家以色列初創(chuàng)公司所做的事情很快就給他留下了深刻的印象,他認(rèn)識(shí)到其設(shè)計(jì)有可能成為亞馬遜第二代主力 Nitro 服務(wù)器芯片的基礎(chǔ),該芯片的第一個(gè)版本是根據(jù) Cavium 半導(dǎo)體的現(xiàn)有設(shè)計(jì)改編的公司。
Bshara 記得 Hamilton 在第一次會(huì)議上詢問 Annapurna 是否可以更進(jìn)一步,開發(fā)基于 Arm 的服務(wù)器處理器。Annapurna Labs聯(lián)合創(chuàng)始人當(dāng)時(shí)立場堅(jiān)定:市場尚未準(zhǔn)備好。
這表明他很現(xiàn)實(shí),而不僅僅是說他認(rèn)為亞馬遜高級(jí)工程師想聽的話。Bshara在會(huì)后發(fā)了一封電子郵件,詳細(xì)說明了他當(dāng)時(shí)的理由。
這是他們在 Nitro 上最初合作的火花,最終導(dǎo)致亞馬遜在 2015 年以據(jù)稱 3.5 億美元的價(jià)格收購了 Annapurna 。亞馬遜表示,目前正在使用的 Nitro 芯片已超過 2000 萬個(gè)。
AWS 于 2018 年推出了由 Annapurna 開發(fā)的基于 Arm 的 CPU Graviton。當(dāng)他們決定制造這款芯片時(shí),Hamilton 提醒 Bshara 當(dāng)初見面時(shí)他對 Arm 服務(wù)器的評價(jià)。
“我告訴他,你是對的,”Bshara回憶道,并解釋說市場現(xiàn)在已經(jīng)準(zhǔn)備好了。
亞馬遜的優(yōu)勢與挑戰(zhàn)
Annapurna 讓亞馬遜在這個(gè)看似走鋼絲的領(lǐng)域取得了早期優(yōu)勢。
Bshara 解釋說,設(shè)計(jì)芯片“極其困難——它與軟件不同”?!胺稿e(cuò)的余地為零。因?yàn)槿绻阌幸粋€(gè)錯(cuò)誤,然后你旋轉(zhuǎn)一個(gè)芯片,你就會(huì)損失九個(gè)月的時(shí)間。對于軟件,如果出現(xiàn)錯(cuò)誤,您可以發(fā)布新版本。在這里,你必須去打印一個(gè)新版本?!?/p>
亞馬遜渴望談?wù)撨@段歷史的原因之一是為了反駁人們普遍認(rèn)為亞馬遜因生成人工智能的興起而措手不及的看法。這將成為本周在拉斯維加斯舉行的 re:Invent 大會(huì)上反復(fù)出現(xiàn)的主題,AWS 首席執(zhí)行官 Adam Selipsky 和團(tuán)隊(duì)將展示他們的最新產(chǎn)品和功能。
“我們絕對希望成為運(yùn)行生成式人工智能的最佳場所,”負(fù)責(zé)運(yùn)行 AWS EC2(彈性云計(jì)算)的亞馬遜副總裁Dave Brown說道,AWS EC2 是該公司云計(jì)算平臺(tái)的核心服務(wù)?!爱?dāng)你考慮客戶想要做什么時(shí),這是一個(gè)非常廣泛的領(lǐng)域?!?/p>
他表示,即使不使用亞馬遜的 AI 芯片,該公司的 Nitro 處理器在顯著提高通常用于 AI 訓(xùn)練的 Nvidia 支持的 EC2 P5 實(shí)例的網(wǎng)絡(luò)吞吐量方面也發(fā)揮著關(guān)鍵作用。
但定制的人工智能芯片使其能夠進(jìn)行更精細(xì)的控制。
“因?yàn)槲覀儞碛?Trainium 和 Inferentia 的全部內(nèi)容,所以不存在我們無法一直調(diào)試到硬件的問題,”他說?!拔覀兡軌蚴褂枚ㄖ菩酒笠?guī)模構(gòu)建極其穩(wěn)定的系統(tǒng)?!?/p>
CCS Insight首席分析師James Sanders表示,由于涉及的工作負(fù)載規(guī)模巨大,定制芯片對于 AWS、Azure 和 Google Cloud 等主要云平臺(tái)至關(guān)重要。
“從數(shù)據(jù)中心規(guī)劃的角度來看,只要將盡可能多的 GPU 放入服務(wù)器機(jī)架中,就會(huì)開始遇到很多麻煩,”他說。“這變成了散熱問題,變成了功耗問題。”
與商用芯片相比,定制芯片可以更好地優(yōu)化工作負(fù)載、降低功耗并提高安全性。高耗電的 GPU 還具有一些對于 AI 工作負(fù)載來說不必要的功能。亞馬遜很早就認(rèn)識(shí)到了這一事實(shí),并在定制人工智能芯片方面憑借 Trainium 和 Inferentia 占據(jù)了先機(jī)。
然而,桑德斯表示,軟件方面是一個(gè)關(guān)鍵挑戰(zhàn)。
Nvidia 在人工智能領(lǐng)域擁有強(qiáng)大的地位,這要?dú)w功于其用于 GPU 通用計(jì)算的軟件平臺(tái) CUDA。這給了英偉達(dá)一條護(hù)城河。他說,亞馬遜的障礙之一是將人工智能工作負(fù)載從 Nvidia GPU 上的 CUDA 移植到亞馬遜芯片上運(yùn)行。這需要開發(fā)人員付出巨大的努力以及亞馬遜的推廣。
Moor Insights & Strategy首席執(zhí)行官兼首席分析師、AMD 前戰(zhàn)略副總裁帕特里克·穆爾黑德 ( Patrick Moorhead)表示,如果開發(fā)人員局限于使用 CUDA 作為編程語言,那么將現(xiàn)有工作負(fù)載從 Nvidia GPU 上移走可能會(huì)很困難。他將這一前景描述為“一次非常沉重的提升”。
他說,亞馬遜的軟件抽象層和集成開發(fā)工具可以在啟動(dòng)新工作負(fù)載時(shí)簡化這種過渡。
Annapurna 聯(lián)合創(chuàng)始人 Bshara 表示,亞馬遜認(rèn)識(shí)到軟件熟悉度對長期增長的重要性,該公司正在投入大量資源為其 AI 芯片構(gòu)建軟件工具鏈。
“許多客戶將 Trainium 支持視為一種戰(zhàn)略優(yōu)勢,”Bshara 通過電子郵件表示。“我們對客戶如此迅速地接受這些芯片感到興奮,并相信工具和支持很快將至少像他們以前使用過的任何芯片架構(gòu)一樣為客戶所使用和熟悉?!?/p>
他表示,該公司的人工智能芯片已被 AirBnB、Snap 和 Sprinklr 等公司大規(guī)模使用,具有明顯的性能和成本優(yōu)勢。
Anthropic 還將根據(jù)他們最近宣布的合作伙伴關(guān)系使用亞馬遜的 AI 芯片,其中亞馬遜將向這家初創(chuàng)公司投資高達(dá) 40 億美元,作為與微軟和 OpenAI 的雙雄對抗。
Moorhead 表示,展望未來,亞馬遜面臨的最大挑戰(zhàn)將包括,隨著人工智能模型的需求持續(xù)呈指數(shù)級(jí)增長,如何利用最新的芯片架構(gòu)在技術(shù)上保持領(lǐng)先地位;并繼續(xù)大力投資研發(fā),與 Nvidia 和 AMD 等專用芯片公司競爭。
Moorhead 表示,亞馬遜在開發(fā)自己的芯片時(shí)冒了很大的風(fēng)險(xiǎn),但它通過重置半導(dǎo)體行業(yè)并在主要云平臺(tái)上引發(fā)新的競爭而獲得了回報(bào)。“他們努力了,而且也做到了,”他說。“他們確實(shí)激勵(lì)了其他人效仿。”
來源:EETOP
--End--
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。