AI/ML數(shù)據(jù)中心的多太比特互連解決方案
即使在AI出現(xiàn)之前,從物聯(lián)網到云計算的一系列數(shù)字創(chuàng)新就已經產生了對數(shù)據(jù)中心服務的前所未有的需求。在這一需求之上,生成式AI、大型語言模型(LLMs)及其他耗電量大的AI相關工作負載的需求如洪水般涌現(xiàn)。因此,AI/ML數(shù)據(jù)中心正在迅速轉向多太比特網絡傳輸速度,以跟上AI相關工作負載所需的計算資源的不斷增加。
盡管當今的數(shù)據(jù)中心主要依賴于400-Gb以太網(400G)網絡設備,但根據(jù)Dell’Oro Group的預測,到2025年,大多數(shù)AI后端端口將達到800G。而到2027年,大多數(shù)AI GPU集群預計將達到1.6T。更高速度的網絡技術消耗更多的電力并產生更多的熱量,這促使數(shù)據(jù)中心運營商尋求更節(jié)能、低成本的基礎設施解決方案。
其中一個創(chuàng)新領域是高速互連技術,它負責在AI加速器、交換機、服務器及其他組件之間傳輸數(shù)據(jù)、應用和工作負載。傳統(tǒng)的選擇是銅纜和光纖互連,每種技術都有顯著的優(yōu)勢和挑戰(zhàn)。
一種更新的解決方案是通過塑料電纜進行射頻傳輸,簡稱e-Tube。這為GPU集群的后端擴展提供了一個引人注目的第三選擇,特別是在需要太比特以上速度以支持AI/ML工作負載的情況下。
銅纜和光纖互連的權衡
長期以來,銅纜直連電纜(DAC)一直是400G網絡設備的默認選擇。銅纜互連因其簡單、便宜、可靠,且非常適合短距離應用(如機架頂部的交換機連接)而聞名。然而,隨著網絡速度的提升以支持800G甚至1.6T以太網及更高速度,銅纜互連的局限性變得越來越明顯。
銅纜在速度增加時會遭受顯著的信號損失(如圖1所示),特別是在短距離的應用中,這成為一個問題。盡管技術上可以通過使用更厚的銅線來延長電纜長度,但這樣一來,DAC本身會變得過于厚重和僵硬,無法部署。
因此,企業(yè)和超大規(guī)模數(shù)據(jù)中心紛紛轉向光纖互連,包括有源光纜(AOC),用于許多AI相關工作負載。由于光纖通過光信號傳輸數(shù)據(jù),傳輸速度更快,距離更長,并且信號損失極小。此外,光纖互連比銅纜明顯更薄、更輕。
然而,光纖互連也比銅纜復雜得多,耗電量更大,且成本更高,因為它們需要昂貴的電光組件進行電光轉換。與銅纜相比,光纖互連的成本可能高達7倍(如圖2所示)。
隨著網絡速度的增加,光纖互連的功耗迅速上升(如圖3所示)。這種成本和功耗問題使得完全依賴光纖解決方案來實現(xiàn)多太比特速度變得不切實際。
為了應對光纖互連的一些問題,諸如共封裝光學技術(CPO)等創(chuàng)新應運而生,這些技術支持更好的能效和更高的密度。然而,共封裝光學仍然面臨傳統(tǒng)光纖解決方案的成本、散熱、功耗和可靠性挑戰(zhàn)。盡管它們可能為中層交換機提供一個可行的解決方案,但對于高容量的機架內、相鄰機架和背板應用而言,共封裝光學仍然在成本和功耗方面存在較大的限制。
e-Tube:更好的射頻傳輸替代方案
鑒于銅纜的物理限制以及光纖互連的高功耗和高成本特性,人們對低功耗、低延遲且具有成本效益的多太比特可擴展互連技術的興趣日益濃厚。e-Tube技術是一種通過塑料電介質波導進行射頻數(shù)據(jù)傳輸?shù)目蓴U展互連平臺,波導由普通的塑料材料制成。
e-Tube電纜的重量比銅纜輕80%,體積小50%。它們不會像銅纜那樣在高頻時遭受信號損失,因此同樣的e-Tube內核可用于1.6T、3.2T,甚至更高速度的未來電纜。由于e-Tube是一種不需要功耗大的昂貴光學組件的電子技術,電纜的能效大約比共封裝光學(CPO)高50%,比傳統(tǒng)的重定時光纖高約75%(如圖4所示)。
e-Tube的延遲以皮秒計算,比傳統(tǒng)光纖電纜快了三個數(shù)量級(如圖5所示)。
在機架內和相鄰機架的通信鏈路中,e-Tube電纜提供了比銅纜更低的損耗、更長的傳輸距離和更高的能效,成本相似。根據(jù)MSA定義的標準設計和測試,這些電纜可以與現(xiàn)有的數(shù)據(jù)中心網絡設備生態(tài)系統(tǒng)兼容使用。
e-Tube電纜利用成熟的半導體工藝技術和電纜制造設備,最大限度地減少了電纜制造商的資本支出。由于比銅纜體積小50%,薄型的e-Tube電纜有助于消除機架擁堵,并使安裝更加易于維護,使其成為太比特機架內和相鄰機架應用中最多達7米的理想選擇。
企業(yè)和超大規(guī)模數(shù)據(jù)中心需要權衡用光纖技術替代銅纜的所有優(yōu)勢和局限性。e-Tube為超大規(guī)模云數(shù)據(jù)中心、AI/ML GPU部署和高性能計算集群中的機架內和相鄰機架部署提供了一個更好的選擇。盡管沒有一種解決方案可以滿足所有需求,但對于數(shù)據(jù)中心中的AI/ML應用,e-Tube為其他新興的光纖互連解決方案提供了一個有前景的替代方案(如圖6所示)。
評論