微軟OpenAI聯(lián)手圍剿英偉達(dá),首款自研AI芯片下月發(fā)布!
微軟自研AI芯片,11月上線!知名外媒The Information獨(dú)家爆料稱(chēng),微軟計(jì)劃在下個(gè)月舉行的年度開(kāi)發(fā)者大會(huì)上,推出首款人工智能芯片。同時(shí),OpenAI也在招聘能夠幫助其評(píng)估和設(shè)計(jì)AI硬件的人員。業(yè)內(nèi)有一種說(shuō)法,「賣(mài)H100比向沙漠里快要渴死的人賣(mài)水還要容易」。不論是為了走出算力枯竭,更高效,低成本地開(kāi)發(fā)自己的模型,還是為了擺脫被「利潤(rùn)率高達(dá)1000%」的H100盤(pán)剝。微軟和OpenAI都在嘗試「變硬」,努力戒掉對(duì)于英偉達(dá)的GPU依賴(lài)。但是,根據(jù)業(yè)內(nèi)人士爆料,英偉達(dá)對(duì)于已經(jīng)推出自己芯片的公司,比如谷歌和亞馬遜,會(huì)控制GPU的供給。所以「芯片自研」的道路,是一個(gè)風(fēng)險(xiǎn)和收益都很高的選擇,畢竟誰(shuí)也不想未來(lái)被黃老板在GPU供給上進(jìn)一步「卡脖子」。
微軟自研AI芯片,追趕谷歌亞馬遜
與英偉達(dá)的GPU類(lèi)似,微軟的芯片也是專(zhuān)為數(shù)據(jù)中心服務(wù)器設(shè)計(jì),可用于訓(xùn)練和運(yùn)行諸如ChatGPT這類(lèi)的大語(yǔ)言模型。
目前,不管是為云客戶(hù)提供先進(jìn)的LLM支持,還是為自家的生產(chǎn)力應(yīng)用提供AI功能,微軟都需要依靠英偉達(dá)的GPU提供算力的加持。而這款從2019年便開(kāi)始研發(fā)的全新芯片,顯然可以極大地減輕微軟對(duì)英偉達(dá)GPU的依賴(lài)。據(jù)知情人士稱(chēng),微軟和OpenAI組成的聯(lián)合團(tuán)隊(duì),現(xiàn)在已經(jīng)在對(duì)其進(jìn)行測(cè)試了。相比起早早入局的競(jìng)爭(zhēng)對(duì)手,微軟直到2019年才開(kāi)始AI芯片的研發(fā)。也是同年,微軟宣布將向OpenAI投資10億美元,并要求他們必須使用微軟的Azure云服務(wù)器。然而,當(dāng)微軟開(kāi)始與OpenAI進(jìn)行更緊密地合作時(shí)發(fā)現(xiàn),依靠購(gòu)買(mǎi)GPU來(lái)支持這家初創(chuàng)公司、Azure客戶(hù)以及自家產(chǎn)品的成本,實(shí)在是太高了。據(jù)知情人士透露,在開(kāi)發(fā)Athena期間,微軟為了滿(mǎn)足OpenAI的需求,已經(jīng)向英偉達(dá)訂購(gòu)了至少數(shù)十萬(wàn)塊GPU。早在,今年4月,就有消息透露了這款代號(hào)為Athena的芯片的存在。據(jù)稱(chēng),微軟希望這款代號(hào)為Athena(雅典娜)芯片,能與一直供不應(yīng)求的英偉達(dá)H100 GPU相媲美。目前,亞馬遜和谷歌已將人工智能芯片作為其云業(yè)務(wù)營(yíng)銷(xiāo)戰(zhàn)略的重要組成部分。其中,亞馬遜在對(duì)Anthropic的投資中規(guī)定,對(duì)方需要使用亞馬遜的AI芯片,即Trainium和Inferentia。同時(shí),谷歌云也表示,Midjourney和 Character AI等客戶(hù)使用了自研的TPU。微軟雖然還在討論是否要向Azure云客戶(hù)提供自研芯片,但該芯片在開(kāi)發(fā)者大會(huì)上的首次亮相,可能預(yù)示著微軟正在尋求吸引未來(lái)云客戶(hù)的興趣。可以肯定的是,微軟將借著Athena的推出,極大縮短與另外兩家巨頭的距離——谷歌和亞馬遜早已在自家的云服務(wù)器上大規(guī)模采用了自研的芯片。此外,為了擺脫英偉達(dá)的「卡脖子」,微軟還在與AMD密切合作,開(kāi)發(fā)即將推出的人工智能芯片MI300X。不過(guò),微軟和其他云服務(wù)提供商普遍表示,自己并沒(méi)有停止從英偉達(dá)購(gòu)買(mǎi)GPU的打算。但如果他們能說(shuō)服云客戶(hù)更多地使用自研芯片,那么從長(zhǎng)遠(yuǎn)來(lái)看,這可以極大地節(jié)省開(kāi)支。同時(shí),也能幫助他們?cè)谂c英偉達(dá)的談判中獲得更多籌碼。OpenAI:這兩家,我都不想要
對(duì)于OpenAI來(lái)說(shuō),能同時(shí)減少對(duì)微軟和英偉達(dá)芯片的依賴(lài),顯然是最好的。
據(jù)OpenAI網(wǎng)站上的幾則招聘信息顯示,公司正在招聘能夠幫助其評(píng)估和共同設(shè)計(jì)AI硬件的人員。路透社也報(bào)道,OpenAI正在計(jì)劃下場(chǎng)生產(chǎn)自己的AI芯片。此前,CEO Sam Altman曾將獲得更多AI芯片作為公司的首要任務(wù)。一方面,OpenAI所需的GPU十分短缺,另外,運(yùn)行這些硬件時(shí)產(chǎn)生的成本「令人瞠目結(jié)舌」。如果算力成本一直居高不下,長(zhǎng)遠(yuǎn)來(lái)看于整個(gè)AI行業(yè)來(lái)說(shuō)可能并不是一個(gè)好消息。畢竟如果掘金的「鏟子」賣(mài)的比金子本身都貴,那么還會(huì)有人去做挖金子的人嗎?根據(jù)Stacy Rasgon的分析,ChatGPT每次查詢(xún)大約需要4美分。如果ChatGPT的查詢(xún)量增長(zhǎng)到谷歌搜索規(guī)模的十分之一,那么就將需要價(jià)值約481億美元的GPU,并且每年需要價(jià)值約160億美元的芯片來(lái)維持運(yùn)行。目前還不清楚OpenAI是否會(huì)推進(jìn)定制芯片的計(jì)劃。據(jù)業(yè)內(nèi)資深人士分析,這將是一項(xiàng)投資巨大的戰(zhàn)略舉措,其中每年的成本可能高達(dá)數(shù)億美元。而且,即使OpenAI將資源投入到這項(xiàng)任務(wù)中,也不能保證成功。除了完全的自研之外,還有一種選擇是像亞馬遜在2015年收購(gòu)Annapurna Labs那樣,收購(gòu)一家芯片公司。據(jù)一位知情人士透露,OpenAI已經(jīng)考慮過(guò)這條路,并對(duì)潛在的收購(gòu)目標(biāo)進(jìn)行了盡職調(diào)查。但即使OpenAI繼續(xù)推進(jìn)定制芯片計(jì)劃(包括收購(gòu)),這項(xiàng)工作也可能需要數(shù)年時(shí)間。在此期間,OpenAI還是將依賴(lài)于英偉達(dá)和AMD等GPU供應(yīng)商。因?yàn)榫退銖?qiáng)如蘋(píng)果,在2007年收購(gòu)了P.A. Semi和Intristy,到2010年推出第一款芯片A4,也經(jīng)歷了3年的時(shí)間。而OpenAI,自己本身都還是一家初創(chuàng)公司,這個(gè)過(guò)程也許走得會(huì)更加艱難。而且英偉達(dá)GPU最重要的護(hù)城河,就是它基于CUDA的軟硬件生態(tài)的積累。OpenAI不但要能設(shè)計(jì)出性能上不落后的硬件,還要在軟硬件協(xié)同方面趕超CUDA,絕對(duì)不是一件容易的事情。但是,另一方面,OpenAI做芯片也有自己獨(dú)特的優(yōu)勢(shì)。OpenAI要做的芯片,不需要向其他巨頭推出的芯片一樣,服務(wù)于整個(gè)AI行業(yè)。他只需滿(mǎn)足自己對(duì)模型訓(xùn)練的理解和需求,為自己定制化的設(shè)計(jì)一款A(yù)I芯片。這和谷歌、亞馬遜這種將自己的AI芯片放在云端提供給第三方使用的芯片會(huì)有很大的不同,因?yàn)閹缀醪挥每紤]兼容性的問(wèn)題。這樣就能在設(shè)計(jì)層面讓芯片能更高效地執(zhí)行Transformer模型和相關(guān)的軟件棧。而且,OpenAI在模型訓(xùn)練方面的領(lǐng)先優(yōu)勢(shì)和規(guī)劃,能讓它真正做到在未來(lái)把模型訓(xùn)練相關(guān)的硬件問(wèn)題,用自己獨(dú)家設(shè)計(jì)的芯片來(lái)解決。不用擔(dān)心自己的芯片在「滿(mǎn)足自己需要」的性能上,相比與英偉達(dá)這樣的行業(yè)巨頭會(huì)有后發(fā)劣勢(shì)。都是成本的問(wèn)題
設(shè)計(jì)自己的AI芯片,與英偉達(dá)直接「剛正面」如此之難,為什么巨頭們還要紛紛下場(chǎng)?
最直接的原因就是,英偉達(dá)的GPU太貴了!加上云提供商在中間還要再賺一筆。這樣,包括OpenAI在內(nèi),使用英偉達(dá)GPU+云提供商的基礎(chǔ)模型企業(yè)成本肯定居高不下。有國(guó)外媒體算過(guò)這樣一筆賬:現(xiàn)在,購(gòu)買(mǎi)一個(gè)使用英偉達(dá)H100 GPU的人工智能訓(xùn)練集群,成本約為10億美元,其FP16運(yùn)算能力約為20 exaflops(還不包括對(duì)矩陣乘法的稀疏性支持)。而在云上租用三年,則會(huì)使成本增加2.5倍。這些成本包括了集群節(jié)點(diǎn)的網(wǎng)絡(luò)、計(jì)算和本地存儲(chǔ),但不包括任何外部高容量和高性能文件系統(tǒng)存儲(chǔ)。購(gòu)買(mǎi)一個(gè)基于Hopper H100的八GPU節(jié)點(diǎn)可能需要花費(fèi)近30萬(wàn)美元,其中還包括InfiniBand網(wǎng)絡(luò)(網(wǎng)卡、電纜和交換機(jī))的分?jǐn)傎M(fèi)用。同樣的八GPU節(jié)點(diǎn),在AWS上按需租用的價(jià)格為260萬(wàn)美元,預(yù)留三年的價(jià)格為110萬(wàn)美元,在微軟Azure和谷歌云上的價(jià)格可能也差不多。因此,如果OpenAI能夠以低于50萬(wàn)美元的單價(jià)(包括所有成本)構(gòu)建系統(tǒng),那么它的成本將減少一半以上,同時(shí)還能掌握自己的「算力自由」。將這些費(fèi)用削減一半,在投入資源不變的情況下,OpenAI的模型規(guī)模就會(huì)擴(kuò)大一倍;如果成本能夠減少四分之三,則翻四倍。在模型規(guī)模每?jī)傻饺齻€(gè)月翻倍的市場(chǎng)中,這一點(diǎn)非常重要。所以長(zhǎng)遠(yuǎn)來(lái)看,也許任何一個(gè)有野心的AI大模型公司,都不得不面對(duì)的一個(gè)最基本問(wèn)題就是——如何盡可能的降低算力成本。而擺脫「金鏟子賣(mài)家」英偉達(dá),使用自己的GPU,永遠(yuǎn)都是最有效的方法。網(wǎng)友熱議
對(duì)于OpenAI和微軟下場(chǎng)造AI芯片的做法,一些網(wǎng)友似乎持不同的意見(jiàn),認(rèn)為AI芯片是一個(gè)「陷阱」。
逼得OpenAI等模型公司造硬件,一個(gè)最大的原因是其他芯片公司完全不給力,英偉達(dá)幾乎沒(méi)有競(jìng)爭(zhēng)。如果AI芯片是一個(gè)競(jìng)爭(zhēng)充分的市場(chǎng),OpenAI這類(lèi)的公司就不會(huì)自己下場(chǎng)做AI芯片。而有些想法更加激進(jìn)的網(wǎng)友認(rèn)為,大語(yǔ)言模型未來(lái)將集成到芯片當(dāng)中,人類(lèi)可以用自然語(yǔ)言和計(jì)算機(jī)直接對(duì)話(huà)。所以設(shè)計(jì)芯片是走到那一步的自然選擇。 來(lái)源:新智元*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。