不想依賴英偉達(dá)!微軟發(fā)布兩款自研AI芯片,可訓(xùn)練大模型
11月16日消息,美國時間周三,微軟發(fā)布了首款自研人工智能(AI)芯片,可用于訓(xùn)練大語言模型,擺脫對英偉達(dá)昂貴芯片的依賴。微軟還為云基礎(chǔ)設(shè)施構(gòu)建了基于Arm架構(gòu)的CPU。這兩款自研芯片旨在為Azure數(shù)據(jù)中心提供動力,并幫助該公司及其企業(yè)客戶準(zhǔn)備迎接AI時代的到來。
本文引用地址:http://cafeforensic.com/article/202311/453015.htm微軟的Azure Maia AI芯片和Arm架構(gòu)Azure Cobalt CPU將于2024年上市。今年,英偉達(dá)的H100 GPU需求激增,這些處理器被廣泛用于訓(xùn)練和運(yùn)行生成圖像工具和大語言模型。這些GPU的需求非常高,甚至在eBay上的售價超過了4萬美元。
微軟Azure硬件系統(tǒng)和基礎(chǔ)設(shè)施主管拉尼·博卡(Rani Borkar)在接受采訪時解釋說:“微軟在芯片開發(fā)方面有著悠久的歷史。”早在20多年前,微軟就與人合作開發(fā)了Xbox的芯片,甚至還合作設(shè)計(jì)了Surface設(shè)備的芯片。博卡表示:“這些努力都是建立在這些經(jīng)驗(yàn)基礎(chǔ)之上的。2017年,我們開始構(gòu)建云硬件堆棧,并開啟了這段旅程,使我們走上了構(gòu)建新自研芯片的軌道?!?/p>
新的Azure Maia AI芯片和Azure Cobalt CPU都是由微軟內(nèi)部構(gòu)建的,并對其整個云服務(wù)器堆棧進(jìn)行了深度檢修,以優(yōu)化性能、功耗和成本。博卡表示:“我們正在重新考慮人工智能時代的云基礎(chǔ)設(shè)施,并真正優(yōu)化該基礎(chǔ)設(shè)施的每一層?!?/p>
Azure Cobalt CPU以元素“鈷”(鈷藍(lán)是重要的藍(lán)色顏料)命名,是一款128核芯片,基于Arm的Neoverse CSS設(shè)計(jì),并為微軟定制。它旨在為Azure上的通用云服務(wù)提供支持。博卡解釋稱:“我們花了很多心思,不僅要讓它具有高性能,還要注意到電源管理。為此我們做了許多有意識的設(shè)計(jì)選擇,包括控制每個內(nèi)核和每臺虛擬機(jī)上性能和功耗的能力。”
微軟目前正在測試Cobalt CPU的工作負(fù)載,如Teams和SQL服務(wù)器,并計(jì)劃明年為客戶提供各種工作負(fù)載的虛擬機(jī)。雖然博卡沒有直接將其與亞馬遜在AWS上提供的Graviton 3服務(wù)器進(jìn)行比較,但與微軟目前用于Azure的基于Arm的服務(wù)器相比,應(yīng)該會有一些明顯的性能提升。博卡表示:“我們的初步測試表明,我們的性能比目前使用商用Arm服務(wù)器的數(shù)據(jù)中心提高了40%?!?微軟還沒有分享完整的系統(tǒng)規(guī)格或基準(zhǔn)。
微軟的Maia 100 AI加速器以“昴宿四”(一顆明亮的藍(lán)色恒星,希臘神話中稱為邁亞)命名,專為運(yùn)行云端人工智能工作負(fù)載而設(shè)計(jì),如大語言模型訓(xùn)練和推理。它將用于支持該公司在Azure上某些最大的人工智能工作負(fù)載,包括與OpenAI高達(dá)100多億美元的合作。微軟將為OpenAI的所有工作負(fù)載提供支持。這家軟件巨頭一直在與OpenAI在Maia的設(shè)計(jì)和測試方面進(jìn)行合作。
OpenAI首席執(zhí)行官薩姆·奧特曼(Sam Altman)說:“當(dāng)微軟第一次分享他們的Maia芯片設(shè)計(jì)時,我們感到非常興奮。我們一起努力,利用我們的模型來改進(jìn)和測試它。Azure的端到端人工智能架構(gòu)現(xiàn)在通過Maia進(jìn)行了優(yōu)化,為訓(xùn)練更有能力的模型鋪平了道路,并使這些模型對我們的客戶來說變得更便宜?!?/p>
Maia采用臺積電5納米工藝制造,擁有1050億個晶體管,比AMD的MI300X AI GPU(1530億個晶體管)少了30%左右。博卡說:“MAIA支持我們的第一個8位數(shù)據(jù)類型,即MX數(shù)據(jù)類型,以便協(xié)同設(shè)計(jì)硬件和軟件,這有助于我們支持更快的模型訓(xùn)練和推理時間?!?/p>
微軟與AMD、Arm、英特爾、Meta、英偉達(dá)和高通等公司都加入了一個組織,該組織正在為人工智能模型的下一代數(shù)據(jù)格式制定標(biāo)準(zhǔn)。同時,微軟正在以開放計(jì)算項(xiàng)目(OCP)的協(xié)作和開放工作為基礎(chǔ),以使整個系統(tǒng)適應(yīng)人工智能的需求。
博卡透露:“Maia是微軟制造的第一個完整的液冷服務(wù)器處理器,我們的目標(biāo)是以更高的效率實(shí)現(xiàn)更高的服務(wù)器密度。因?yàn)槲覀冋谥匦聵?gòu)想整個堆棧,我們特意考慮到了每一層,所以這些系統(tǒng)實(shí)際上也適合我們目前的數(shù)據(jù)中心。”
這對微軟來說非常關(guān)鍵,因?yàn)樗梢愿斓貑舆@些人工智能服務(wù)器,而不必在世界各地的數(shù)據(jù)中心重新為它們騰出空間。微軟建造了獨(dú)特的機(jī)架用來放置Maia服務(wù)器主板,并配有名為“助手”的液體冷卻器。它的工作原理就像在汽車或高檔游戲PC上搭載的散熱器,可以冷卻Maia芯片的表面。
除了共享MX數(shù)據(jù)類型,微軟還與合作伙伴共享其機(jī)架設(shè)計(jì),以便他們可以在內(nèi)部有其他芯片的系統(tǒng)上使用它們。但Maia芯片的設(shè)計(jì)不會被更廣泛地分享,微軟將其保留在內(nèi)部。
Maia 100目前正在GPT 3.5 Turbo上進(jìn)行測試,該模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微軟正處于部署的早期階段,就像Cobalt一樣,該公司還不愿意發(fā)布確切的Maia規(guī)范或性能基準(zhǔn)。
這使得我們很難準(zhǔn)確解讀Maia將如何與英偉達(dá)廣受歡迎的H100 GPU、最近發(fā)布的H200,甚至AMD最新的MI300X進(jìn)行比較。博卡也不想進(jìn)行比較,而是重申,與英偉達(dá)和AMD的合作對于Azure人工智能云的未來仍然非常關(guān)鍵。博卡表示:“在云計(jì)算運(yùn)營的規(guī)模下,優(yōu)化和整合堆棧的每一層,以最大限度地提高性能,使供應(yīng)鏈多樣化,并為我們的客戶提供基礎(chǔ)設(shè)施選擇,這真的非常重要?!?/p>
供應(yīng)鏈的多樣化對微軟來說同樣重要,尤其是考慮到英偉達(dá)目前是人工智能服務(wù)器芯片的主要供應(yīng)商,而各家公司一直在競相購買這些芯片。據(jù)估計(jì),為了推進(jìn)ChatGPT的商業(yè)化,OpenAI需要超過3萬個英偉達(dá)的老款A(yù)100 GPU,而微軟的自研芯片可以幫助其客戶降低人工智能的成本。微軟還為自己的Azure云工作負(fù)載開發(fā)了這些芯片,而不打算將其出售給英偉達(dá)、AMD、英特爾和高通等其他公司。
博卡解釋稱:“我認(rèn)為這更像是一種互補(bǔ),而不是與他們競爭。今天,我們在云計(jì)算領(lǐng)域同時使用英特爾和AMD的芯片。同樣,在人工智能領(lǐng)域,我們也可以同時使用AMD和英偉達(dá)的芯片。這些合作伙伴對我們的基礎(chǔ)設(shè)施非常重要,我們真的希望給我們的客戶選擇?!?/p>
Maia 100和Cobalt 100的命名表明微軟已經(jīng)在設(shè)計(jì)這些芯片的第二代版本。博卡說:“這是一個系列,不只是一代就結(jié)束了,但我們不會分享我們的路線圖。”目前還不清楚微軟多久會發(fā)布一次Maia和Cobalt的迭代,但考慮到人工智能的發(fā)展速度,如果Maia 100的繼任者以與英偉達(dá)H200相似的速度發(fā)布(大約20個月),無需為此感到驚訝。
現(xiàn)在的關(guān)鍵是,微軟將以多快的速度讓Maia運(yùn)行起來,加快推進(jìn)其人工智能雄心,以及這些芯片將如何影響人工智能云服務(wù)的使用定價。微軟還沒有準(zhǔn)備好談?wù)撨@款新服務(wù)器的定價,但我們已經(jīng)看到該公司悄悄地推出了針對Microsoft 365的Copilot,每位用戶每月收費(fèi)30美元。
目前,Microsoft 365版的Copilot僅限于微軟的大客戶,企業(yè)用戶必須承諾至少擁有300個用戶,才能使用這款新的人工智能Office助手。隨著微軟本周推出更多的Copilot功能,并對Bing Chat進(jìn)行了品牌重塑,Maia可能很快就會幫助彌補(bǔ)對支持這些新體驗(yàn)的人工智能芯片的需求。
評論