A卡的鍋?世界第一超算Frontier,啟動(dòng)至今無法連續(xù)工作一天
Frontier 上線給科學(xué)家提供算力的日期已經(jīng)推遲到了明年。
在全球范圍內(nèi),很多機(jī)構(gòu)都在爭(zhēng)相構(gòu)建 E 級(jí)(每秒百億億次)超級(jí)計(jì)算機(jī),性能指數(shù)級(jí)跨越的超算預(yù)計(jì)會(huì)在人工智能、醫(yī)療、氣象等領(lǐng)域發(fā)揮重大作用,是超級(jí)電腦工程的重要里程碑。
世界第一臺(tái) E 級(jí)超算是美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室(ORNL)的「Frontier」,它也是當(dāng)前全球超算 TOP500 榜單的第一名,但雖說性能領(lǐng)先,F(xiàn)rontier 卻遠(yuǎn)遠(yuǎn)無法達(dá)到超算應(yīng)有的效率。
近日,一些海外媒體接連報(bào)道稱,當(dāng)前世界最快的超算的硬件出現(xiàn)了大量故障,機(jī)器甚至無法運(yùn)行一整天。
ORNL Frontier 目前最多只能產(chǎn)生 60% 即 1 FP64 ExaFLOPS 的算力,而該系統(tǒng)旨在提供 1.685 FP64 ExaFLOPS。雖然官方還沒有就具體問題給出任何消息,但一些信息正被曝光。
在最新一期,2022 年 6 月的 TOP500 榜單中,F(xiàn)rontier 位列第一名,其標(biāo)稱的速度是 1.685 FP64 ExaFLOPS。
橡樹嶺實(shí)驗(yàn)室的 Frontier 是業(yè)界首個(gè)使用 AMD 的 64 核 EPYC Trento 處理器、Instinct MI250X 計(jì)算 GPU 和 Hewlett Packard Enterprise(HPE)的 Slingshot 互連,能以 21 兆瓦功率提供高達(dá) 1.685 FP64 ExaFLOPS 峰值性能的系統(tǒng)。HPE 構(gòu)建了該系統(tǒng)并使用了 Cray EX 架構(gòu),它專為橫向擴(kuò)展應(yīng)用程序設(shè)計(jì),適用于超高速超級(jí)計(jì)算機(jī)。
雖然從表面上看 Frontier 性能強(qiáng)大,并且系統(tǒng)硬件部分已經(jīng)交付,但當(dāng)前面臨的問題似乎一直讓機(jī)器無法保持正常運(yùn)轉(zhuǎn),并且無法穩(wěn)定提供即使是不及標(biāo)稱的 1 FP64 ExaFLOPS 的性能供研究人員使用。
OLCF 項(xiàng)目主管 Justin Whitt 表示:「我們正在解決硬件問題,并確保找出關(guān)鍵問題所在。目前看來主要是規(guī)模問題和應(yīng)用程序的廣度問題,系統(tǒng)運(yùn)行的項(xiàng)目過大,很難讓所有硬件協(xié)同運(yùn)行,通常間隔幾小時(shí)就會(huì)出現(xiàn)一次故障?!箯哪撤N意義上說,F(xiàn)rontier 是在超級(jí)計(jì)算機(jī)的期末考試上成績(jī)不佳。
實(shí)際上,關(guān)于 Frontier 潛在硬件故障的流言已經(jīng)出現(xiàn)了很長(zhǎng)一段時(shí)間。InsideHPC 曾報(bào)道稱有人說故障原因是系統(tǒng)遇到了 Slingshot 互連的問題。此外,還有人表示今年 AMD 的 Instinct MI250X 計(jì)算 GPU 的可靠性不如預(yù)期,并且具有更多流處理器和高時(shí)鐘的 X 版本僅適用于特定客戶。
Justin Whitt 沒有證實(shí)該系統(tǒng)遇到了 Instinct 或 Slingshot 等任何特定問題,他只是強(qiáng)調(diào)該機(jī)器存在許多硬件問題。
OLCF 負(fù)責(zé)人表示:「很多挑戰(zhàn)都集中在 GPU 上,GPU 是非常重要的硬件組成部分。但我們對(duì) AMD 的產(chǎn)品尚且沒有太多擔(dān)憂?!?/span>
橡樹嶺國(guó)家實(shí)驗(yàn)室的 Frontier 超級(jí)計(jì)算機(jī)并不是唯一一個(gè)使用 HPE Cray EX 架構(gòu)、 Slingshot 互連、AMD EPYC CPU 和 AMD Instinct 計(jì)算 GPU 的系統(tǒng),芬蘭的 Lumi 超級(jí)計(jì)算機(jī)(Cray EX , EPYC Milan, Instinct MI250X 計(jì)算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列為世界第三強(qiáng)大的超級(jí)計(jì)算機(jī)。也許對(duì)于此類使用上千萬零件組成的超算來說,問題不是孤立的。
從官方論述來看,HPE 和 AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系統(tǒng)。美國(guó)能源部 E 級(jí)超算項(xiàng)目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成將從明年開始提供給研究人員,但并未引述對(duì) Frontier 超級(jí)計(jì)算機(jī)的全面啟動(dòng)有任何擔(dān)憂或問題。
在錯(cuò)過了原先設(shè)定的 Deadline 后,F(xiàn)rontier 超級(jí)計(jì)算機(jī)計(jì)劃于 2023 年 1 月 1 日全面投入運(yùn)行。
人們都在期待 E 級(jí)超算帶來的研究成果,不過伴隨世界第一而來的還有部分懷疑。一些專家認(rèn)為,在 E 級(jí)計(jì)算的競(jìng)爭(zhēng)中 Frontier 比不上中國(guó)的兩個(gè)計(jì)算機(jī)系統(tǒng),后者的運(yùn)營(yíng)商還沒有向 TOP500 提交測(cè)試結(jié)果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升級(jí)版)和天河 3 號(hào)超算在 2021 年 3 月就達(dá)到了持續(xù)的 E 級(jí)算力。
去年 11 月的全球超級(jí)計(jì)算大會(huì) SC21 上,來自中國(guó)的超算應(yīng)用團(tuán)隊(duì)因「超大規(guī)模量子隨機(jī)電路實(shí)時(shí)模擬」成果獲得戈登 · 貝爾獎(jiǎng)。該團(tuán)隊(duì)表示,研究基于的新一代神威超級(jí)計(jì)算機(jī)可提供每秒 4.4 百億億次的持續(xù)計(jì)算性能,是超算領(lǐng)域全世界當(dāng)時(shí)已知的最高混合精度浮點(diǎn)計(jì)算性能。
專家們表示,中美之間的緊張關(guān)系可能是中國(guó)沒有向 TOP500 提交測(cè)試結(jié)果的原因。
參考內(nèi)容:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure
https://www.top500.org/lists/top500/2022/06/
https://www.tsinghua.edu.cn/info/1173/89027.htm
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。