全球最大芯片,想用光互聯(lián)實(shí)現(xiàn)4000倍提升
晶圓級(jí)處理器開(kāi)發(fā)商 Cerebras 正在研究一種光學(xué)子態(tài),以將其系統(tǒng)性能提高 4000 倍,并呼吁行業(yè)合作和標(biāo)準(zhǔn)化。
目前的 Cerebras WSE3 處理器建立在一塊 300 毫米晶圓上,擁有 900 million晶體管,功耗為 20kW。這家總部位于加州的公司必須開(kāi)發(fā)自己的晶圓級(jí)封裝,用于 I/O、電力輸送和冷卻,目前正在研究光學(xué)互連。
該公司首席系統(tǒng)架構(gòu)師本周在法國(guó)格勒諾布爾舉行的 Leti 創(chuàng)新日上發(fā)表了講話,探討了如何利用小芯片和 3D 異構(gòu)封裝技術(shù)應(yīng)對(duì)可擴(kuò)展性挑戰(zhàn)?!八皇切⌒酒?,但它仍然是 3D 集成的候選者,”Cerebras 聯(lián)合創(chuàng)始人兼首席系統(tǒng)架構(gòu)師 JP Fricker 表示?!斑@項(xiàng)技術(shù)將帶來(lái)變革?!?/span>
然而,性能、擴(kuò)展和功耗的一個(gè)關(guān)鍵限制是片外 I/O。
“I/O 是大型計(jì)算的一個(gè)限制,會(huì)阻止您進(jìn)入非常大的系統(tǒng)。這些技術(shù)現(xiàn)在已經(jīng)存在,但我們需要發(fā)明技術(shù)來(lái)將它們整合在一起。我們正在開(kāi)發(fā)這些技術(shù),我們的目標(biāo)是構(gòu)建比現(xiàn)在快 4000 倍的超級(jí)計(jì)算機(jī),并將 1000 個(gè)晶圓連接在一起?!?/span>
“目前,I/O 位于芯片的兩個(gè)邊緣,但如果 I/O 分布在芯片上,效果會(huì)更好??s短通道長(zhǎng)度可以減小 SERDES 的尺寸,從而節(jié)省空間和功耗?!?/span>
“我們希望擁有大量的光學(xué)引擎,”他說(shuō)?!澳壳八鼈兪峭獠康?,但最終我們會(huì)將這些激光器放入芯片中?!彼f(shuō),這些將用于多個(gè)通信通道,數(shù)據(jù)速率合理,為 100 到 200Gbit/s,而不是粗管道。
“我們有自己的晶圓級(jí)引擎,并采用第三方晶圓級(jí)可編程光學(xué)互連,將它們組合在一起,利用晶圓的整個(gè)表面連接到晶圓上,”他說(shuō)?!斑@需要異質(zhì)晶圓對(duì)晶圓的封裝?!?/span>
Celestia AI 和 LightMatter 等公司一直在開(kāi)發(fā)這些光互連技術(shù),特別是針對(duì)超大規(guī)模和 AI 芯片公司。
“但我們需要發(fā)明或重新利用技術(shù)。當(dāng)前的互連間距太粗,我們無(wú)法獲得愿意集成該技術(shù)的晶圓廠,因?yàn)樗”娏?,所以我們需要?jiǎng)?chuàng)建一種不同的工藝?;旌湘I合可實(shí)現(xiàn) 12 微米以下的更細(xì)間距和更高的組裝產(chǎn)量,但它僅在特定晶圓廠中可用,并且晶圓廠中的工藝對(duì)有限,例如 5nm 到 5nm 晶圓,但不能使用不同的代工廠,而且兩年后也是如此?!?/span>
工藝步驟中也存在挑戰(zhàn)。
“為了進(jìn)行混合鍵合,晶圓廠會(huì)在最后的銅層之一處停止,這個(gè)銅層不容易探測(cè),但這使得運(yùn)送到另一家晶圓廠變得困難?!?/span>
“我們希望開(kāi)發(fā)一種新技術(shù),通過(guò)一個(gè)共同的頂層來(lái)標(biāo)準(zhǔn)化晶圓的表面處理,并將這一層用作晶圓堆疊的標(biāo)準(zhǔn)接口,這樣不同的晶圓可以以不同的方式制造,但最后一組接口對(duì)于不同工廠之間的鍵合來(lái)說(shuō)是通用的。這也意味著鍵合可以由第三方完成,而不僅僅是大批量工廠,”他說(shuō)。
測(cè)試探針在銅層上留下的標(biāo)記對(duì)于平坦化來(lái)說(shuō)也是一個(gè)問(wèn)題,必須去除這些標(biāo)記或使用非接觸式測(cè)試系統(tǒng)。
但他表示,這一做法具有顯著的優(yōu)勢(shì)。
“我們可以通過(guò)光學(xué)晶圓傳輸電力,因?yàn)樵∈?,有許多硅通孔 (TSV) 和非常短的通道,并且這些元件通過(guò)使用多種波長(zhǎng)位于單層中。這樣就可以在同一系統(tǒng)中從頂部傳輸電力并從底部移除冷卻?!?/span>
“在我們的案例中,計(jì)算晶圓上的網(wǎng)絡(luò)基于可配置結(jié)構(gòu),該結(jié)構(gòu)在晶圓上運(yùn)行工作負(fù)載之前設(shè)置。當(dāng)您在光域中使用電路交換執(zhí)行此操作時(shí),您可以將電氣交換發(fā)展到光域,但您不需要經(jīng)常這樣做。
跨越英偉達(dá)的護(hù)城河
英偉達(dá)的護(hù)城河有多寬?這是如今投資者心中3萬(wàn)億美元的問(wèn)題。至少部分答案可能在今年晚些時(shí)候以IPO的形式出現(xiàn)。Cerebras Systems是一家試圖在人工智能芯片戰(zhàn)場(chǎng)上挑戰(zhàn)英偉達(dá)的初創(chuàng)公司 AI,該公司將于2024年底進(jìn)行首次公開(kāi)募股。
Eclipse Ventures的創(chuàng)始人兼管理合伙人Lior Susan 于2015年首次投資Cerebras ,當(dāng)時(shí)該公司有五張演示幻燈片和新計(jì)算機(jī)架構(gòu)的理論計(jì)劃。八年后,這家初創(chuàng)公司提供了具有大量?jī)?nèi)存的特殊大型芯片,適用于模型訓(xùn)練和推理等生成式人工智能工作負(fù)載。這些與 Nvidia 芯片(包括 B100 和 H100)相抗衡。
與 Nvidia 競(jìng)爭(zhēng)最“煩人”的事情是 CUDA 但根據(jù) Susan 的說(shuō)法,
CUDA 是 Nvidia 構(gòu)建的軟件層,旨在幫助開(kāi)發(fā)人員處理和指導(dǎo)其圖形處理單元。該平臺(tái)擁有數(shù)百萬(wàn)行代碼,可節(jié)省開(kāi)發(fā)人員的時(shí)間和金錢(qián),在這一點(diǎn)上,它是大部分人工智能生態(tài)系統(tǒng)的默認(rèn)代碼。
Cerebras有自己的軟件,可以與初創(chuàng)公司的芯片配合使用。但即使是精心設(shè)計(jì)的替代品也比 CUDA 落后數(shù)年。隨著開(kāi)發(fā)人員的知識(shí)和習(xí)慣的建立,這種領(lǐng)先優(yōu)勢(shì)將很難打破。
“我個(gè)人完全低估了銷(xiāo)售芯片的CUDA部分,”Susan說(shuō)?!澳闶菦_著硬件來(lái)的。你留下來(lái)是因?yàn)檐浖?。他補(bǔ)充說(shuō):“作為技術(shù)人員,我們總是喜歡哭泣,說(shuō)我們不喜歡某些東西,但后來(lái)我們繼續(xù)使用它。因?yàn)闆](méi)有比這更好的了。
半導(dǎo)體行業(yè)資深人士、Thomvest董事總經(jīng)理Umesh Padval稱(chēng)CUDA為堡壘。它在 2007 年發(fā)展緩慢,但近年來(lái)像滾雪球一樣越滾越大,大約有 500 萬(wàn)開(kāi)發(fā)人員編寫(xiě) CUDA 代碼,向規(guī)范添加可用數(shù)據(jù),排除錯(cuò)誤并相互支持。
隨著時(shí)間的流逝,Nvidia 在 CUDA 之上疊加了更多工具和資產(chǎn)。像單詞庫(kù)和訓(xùn)練數(shù)據(jù)這樣的東西,初創(chuàng)公司可以利用這些數(shù)據(jù),這樣他們就不會(huì)在每次決定將人工智能革命的力量指向一個(gè)新的用例時(shí)從頭開(kāi)始。例如,Modulus 是一個(gè)幫助人工智能理解物理的庫(kù)。
“他現(xiàn)在有數(shù)以百萬(wàn)計(jì)的軟件開(kāi)發(fā)人員,他們知道這門(mén)語(yǔ)言,并且已經(jīng)使用了很長(zhǎng)時(shí)間,”P(pán)adval在談到英偉達(dá)首席執(zhí)行官黃仁勛時(shí)說(shuō)?!翱傆幸惶鞎?huì)解決的,但這是一條很大的護(hù)城河?!?/span>
越過(guò)這條CUDA護(hù)城河是關(guān)鍵。Business Insider 獲得的亞馬遜內(nèi)部文件就是一個(gè)例子。文件稱(chēng),亞馬遜的 Neuron 軟件旨在幫助開(kāi)發(fā)人員使用 AWS 的 AI 芯片構(gòu)建 AI 工具,但目前的設(shè)置“阻止了從 NVIDIA CUDA 的遷移”。這是阻礙一些AWS客戶(hù)使用亞馬遜人工智能芯片的主要因素之一。
任何構(gòu)建CUDA替代品的人都不能完全忘記它。如果初創(chuàng)公司出于這種意圖從頭開(kāi)始構(gòu)建技術(shù),他們可以嘗試完全避免這種情況 。但是,大多數(shù) AI 開(kāi)發(fā)人員如果想改變他們的硬件,就必須通過(guò)艱苦的工作來(lái)改變他們的軟件。
AMD是英偉達(dá)最直接的競(jìng)爭(zhēng)對(duì)手 ,擁有自己的平臺(tái)ROCm。它帶有一個(gè)名為 Hipify 的工具,可將 CUDA 軟件代碼轉(zhuǎn)換為更便攜的東西。
“你用CUDA編寫(xiě)一個(gè)程序。要在AMD GPU上運(yùn)行它,您可以使用Hipify工具進(jìn)行切換,“AI芯片初創(chuàng)公司Positron的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Thomas Sohmers說(shuō)?!疤孤实卣f(shuō),我還沒(méi)有看到有人使用Hipify。
9月,包括高通、谷歌和英特爾在內(nèi)的一群 AI 名人和 Nvidia 競(jìng)爭(zhēng)對(duì)手成立了 UXL 基金會(huì) ,以構(gòu)建一個(gè)與芯片無(wú)關(guān)的競(jìng)爭(zhēng)對(duì)手軟件平臺(tái)。該軟件要到 2024 年底才能投入使用。其他攻破CUDA堡壘的嘗試都失敗了 。
然而,時(shí)間和慣性是一個(gè)強(qiáng)大的組合,正如KG Ganapathi樂(lè)于解釋的那樣。
他的創(chuàng)業(yè)公司Vimaan正在為未來(lái)的“黑暗倉(cāng)庫(kù)”開(kāi)發(fā)技術(shù),不需要人工操作。它使用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)來(lái)理解和編目每個(gè)項(xiàng)目的形狀、大小、數(shù)量和位置。Vimaan 已獲得亞馬遜 工業(yè)創(chuàng)新基金 的資助,并且是 Nvidia 初創(chuàng)公司 Inception 計(jì)劃的一部分。
Vimaan團(tuán)隊(duì)已經(jīng)在CUDA中構(gòu)建了整個(gè)系統(tǒng),而Ganapathi現(xiàn)在沒(méi)有興趣改變它,即使有明確的理由這樣做。
“我是否要借此機(jī)會(huì)切換我們?cè)谟ミ_(dá)平臺(tái)上構(gòu)建的整個(gè)基礎(chǔ)設(shè)施?”他說(shuō)?!翱赡懿粫?huì)?!?/span>
盡管如此,Thomvest 的 Padval 相信 Nvidia 客戶(hù)希望通過(guò)多樣化他們的 GPU 和支持軟件來(lái)源來(lái)降低風(fēng)險(xiǎn)。這意味著競(jìng)爭(zhēng)對(duì)手仍將受到資本以及產(chǎn)品測(cè)試和購(gòu)買(mǎi)的推動(dòng)。
“客戶(hù)喜歡領(lǐng)導(dǎo)者。但他們也覺(jué)得他們想要第二個(gè)來(lái)源,這樣他們就有了選擇,“他說(shuō)。
由于CUDA可能是英偉達(dá)護(hù)城河中最重要的元素,因此對(duì)該公司市場(chǎng)份額的長(zhǎng)期預(yù)測(cè)可以表明這種影響力有多大。
Eclipse Ventures的Susan表示,這個(gè)市場(chǎng)是如此巨大,即使從英偉達(dá)手中奪走一小部分也是值得的。
“我說(shuō)嘿,我最大的競(jìng)爭(zhēng)對(duì)手價(jià)值3.5萬(wàn)億美元,所以你知道,如果我得到10%,我就是一個(gè)快樂(lè)的人,”他說(shuō)。
來(lái)源:半導(dǎo)體行業(yè)觀察
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。