AI巨頭籌劃價值1100多億美元的超級計算機項目
據(jù)報道,Microsoft 和 OpenAI 正在開發(fā)一個大型數(shù)據(jù)中心,以容納一臺擁有數(shù)百萬個 GPU 的專注于 AI 的超級計算機。The Information 報道稱,該項目的成本可能「超過 1150 億美元」,而目前在 OpenAI 內部被稱為「星際之門」(Stargate)的超級計算機將位于美國。
本文引用地址:http://cafeforensic.com/article/202404/457108.htm該報告稱,Microsoft 將為數(shù)據(jù)中心買單,該數(shù)據(jù)中心可能比當今一些最大的運營中心「成本高出 100 倍」。Stargate 將是兩家公司希望在未來 6 年內建立的一系列數(shù)據(jù)中心項目中最大的一個,高管們希望在 2028 年之前運行它。
報告稱,OpenAI 和 Microsoft 正在分階段構建這些超級計算機,Stargate 將是第 5 階段的系統(tǒng)。The Information 的消息人士稱,第 4 階段的系統(tǒng)成本更低,最早可能在 2026 年啟動,并且可能希望在威斯康星州的 Mt. Pleasant 開始。該系統(tǒng)可能需要幾個 Stargate,還需要足夠的電力供應(至少幾千兆瓦),以至于 Microsoft 和 OpenAI 正在考慮替代能源,例如核能。
消息人士表示,這種規(guī)模的數(shù)據(jù)中心將具有挑戰(zhàn)性,部分原因是現(xiàn)有設計需要「將比過去更多的 GPU 放入單個機架中,以提高芯片的效率和性能,這意味著還要設計新穎的方法來保持良好的散熱性能。
聽起來這些公司也有可能利用這個設計來擺脫對英偉達的依賴。該報告稱,OpenAI 希望避免在 Stargate 中使用英偉達的 InfiniBand 電纜,盡管 Microsoft 在當前的項目中使用它們。OpenAI 聲稱它寧愿使用以太網(wǎng)電纜。
很多事情仍有待確定,因此價格和計劃似乎都可能發(fā)生變化,目前尚不清楚何時會最終確定細節(jié)。該信息還指出,尚未確定這臺計算機將位于何處,以及它是將構建在單個數(shù)據(jù)中心還是「鄰近的多個數(shù)據(jù)中心」中。
今年早些時候,有報道稱,OpenAI 首席執(zhí)行官山姆·阿爾特曼(Sam Altman)雄心勃勃地制造人工智能芯片,并希望籌集多達 7 萬億美元來建設晶圓廠來生產(chǎn)它們。去年,Microsoft 發(fā)布了專門用于 AI 項目的 128 核 Arm 數(shù)據(jù)中心 CPU 和 Maia 100 GPU。也有報道稱,Microsoft 為人工智能數(shù)據(jù)中心開發(fā)自己的網(wǎng)絡設備。隨著人工智能的興起,英偉達的 GPU 需求量很大,因此,像 Microsoft 和 OpenAI 這樣的公司可能希望有一些其它選擇是有道理的。
「我們一直在規(guī)劃下一代基礎設施創(chuàng)新,以繼續(xù)推動人工智能的發(fā)展,」Microsoft 首席通信官弗蘭克·肖(Frank Shaw)告訴 The Information,但他沒有直接評論該超級計算機計劃。
Microsoft 在與 OpenAI 的合作中投入了數(shù)十億美元,主要是以計算能力的形式運行其模型。如果 Stargate 或類似的東西成為現(xiàn)實,隨著投資的規(guī)模越來越大,而且越來越復雜,這種伙伴關系只會越來越深。
美國超算有哪些?
2023 年 11 月,全球超級計算大會正式公布了第 62 期全球超級計算機 TOP500 排行榜,美國橡樹嶺國家實驗室的 Frontier 仍保持著第一名位置,中國的神威·太湖之光和天河二號 A 也進入了前十五,分別排名第 11 和第 14。
排名第一的 Frontier 以 1.194 EFlop/s 的 HPL 性能繼續(xù)保持領先地位。其搭載了基于最新的 HPE Cray EX235a 架構的 2GHz AMD EPYC 64C 處理器,共有 8699904 個 CPU 和 GPU 核心。此外,F(xiàn)rontier 還具有高達 52.59 GFlops/W 的額定能效,并可借助于 HPE 的 Slingshot 11 網(wǎng)絡進行數(shù)據(jù)傳輸。
排名第二是美國阿貢國家實驗室的 Aurora 超級計算機,其以 585.34 PFlop/s 的 HPL 性能殺入榜單。需要指出的是,此次 Aurora 的數(shù)值是在當前未完全建成狀態(tài)下提交的,目前僅有計劃中最終規(guī)模的一半。根據(jù)規(guī)劃,Aurora 在建設完成后將配備 21248 個 Intel Xeon Max 系列 CPU、63744 個 Intel Max 系列 GPU、20.42PB 內存,峰值性能可達 2 EFlop / s,遠超 Frontier。
排名第三的是安裝于微軟美國 Azure 云中的 Eagle,HPL 性能為 561.2 PFlop/s,這也是云服務廠商取得的最高排名。其基于英特爾至強鉑金 8480C 處理器和英偉達 H100 打造。
排名第四的是日本的富岳超級計算機,HPL 分數(shù)為 442.01 PFlop/s,基于富士通自研的基于 Arm 架構的 48 核處理器 A64FX,總共裝有大約 16 萬個 CPU 芯片。
排名第五的是來自芬蘭卡亞尼歐洲高性能計算中心的超級計算機 LUMI,HPL 性能達 379.07 PFlop/s,基于 HPE Cray EX235a 架構,配備了 2GHz AMD EPYC 64C 處理器和 AMD Instinct MI250X GPU。
排名第六的是意大利 CINECA 的一個 EuroHPC 站點上的 Leonardo 系統(tǒng),HPL 性能達 238.7 Pflop/s。它是一個 Atos BullSequana XH2000 系統(tǒng),處理器為 Intel Xeon Platinum 8358 32C 2.6GHz,加速器為 NVIDIA A100 SXM4 40 GB,采用四軌 NVIDIA HDR100 Infiniband 作為互連。
排名全球第七是美國田納西州橡樹嶺國家實驗室(ORNL)的 Summit 超級計算機,由 IBM 打造,目前在 HPL 性能為 148.8 Pflop/s,擁有 4,356 個節(jié)點,每個節(jié)點配備兩個 POWER9 CPU(每個具有 22 個核心)和 6 個 NVIDIA Tesla V100 GPU(每個含有 80 個 SM),通過 Mellanox 雙軌 EDR InfiniBand 網(wǎng)絡保持連接。
第八名是西班牙 EuroHPC / 巴塞羅那超級計算中心最新安裝的 MareNostrum 5 ACC 超算系統(tǒng),這個 使用 Xeon Platinum 8460Y 處理器以及 NVIDIA H100 和 Infiniband NDR200,實現(xiàn)了 183.2 Pflop/s 的 HPL 性能。
排名第九的新 Eos 系統(tǒng)是英偉達打造的基于 DGX SuperPOD 的系統(tǒng),配備 Intel Xeon Platinum 8480C 處理器、NVIDIA H100 加速器和 Infiniband NDR400 的 NVIDIA DGX H100,實現(xiàn)了 121.4 Pflop/s 的性能。
排名第十的是美國加利福尼亞州勞倫斯利弗莫爾國家實驗室的 Sierra 系統(tǒng)。它的架構與排名第七的系統(tǒng) Summit 非常相似,由 4,320 個節(jié)點組成,每個節(jié)點配備兩個 POWER9 CPU 和四個 NVIDIA Tesla V100 GPU,可實現(xiàn) 94.6 Pflop/s 的性能。
此外,GREEN500 排名第一的位置仍然是美國紐約熨斗研究所的 Henri。該系統(tǒng)的能效等級為 65.40 GFlops / Watt,同時 HPL 得分為 2.88 PFlops / s。Henri 是一臺聯(lián)想 ThinkSystem SR670,配備 Intel Xeon Platinum 和 NVIDIA H100,共有 8,288 個核心,在 TOP500 排行榜上排名第 293 位。
評論