英特爾首個(gè)Chiplet處理器,正式發(fā)布
Intel Max CPU 系列和 Ponte Vecchio Max GPU 系列
英特爾最近公布了有關(guān)其即將推出的至強(qiáng)Max系列CPU和英特爾數(shù)據(jù)中心GPU Max系列(Ponte Vecchio) 的詳細(xì)信息。今天標(biāo)志著正式啟動(dòng)。英特爾配備HBM2e的Max CPU型號(hào)上市,具有32至56個(gè)內(nèi)核,并基于標(biāo)準(zhǔn)的Sapphire Rapids設(shè)計(jì)。這些芯片是第一批采用HBM2e內(nèi)存封裝的x86處理器,從而為處理器提供了更大的64GB本地內(nèi)存池。HBM內(nèi)存將有助于處理對(duì)內(nèi)核數(shù)量不那么敏感的內(nèi)存綁定工作負(fù)載,因此Max型號(hào)的內(nèi)核數(shù)量少于標(biāo)準(zhǔn)型號(hào)。目標(biāo)工作負(fù)載包括計(jì)算流體動(dòng)力學(xué)、氣候和天氣預(yù)報(bào)、人工智能訓(xùn)練和推理、大數(shù)據(jù)分析、內(nèi)存數(shù)據(jù)庫(kù)和存儲(chǔ)應(yīng)用程序。Max CPU可以在多種配置下運(yùn)行,例如將HBM內(nèi)存用于所有內(nèi)存操作(僅HBM-不需要DDR5內(nèi)存),將HBM呈現(xiàn)為單獨(dú)內(nèi)存區(qū)域的HBM“平面模式”(這需要廣泛的軟件支持),或者在使用HBM2e作為DRAM支持的緩存的HBM“緩存模式”中。后者不需要更改代碼,很可能是最常用的操作模式。Xeon Max CPU將與AMD的EPYC Milan-X處理器相抗衡,后者帶有一個(gè)稱(chēng)為3D V-Cache的3D堆疊L3緩存。Milan-X模型每個(gè)芯片具有高達(dá)768MB的總L3緩存,可提供令人難以置信的帶寬量,但它提供的容量不如英特爾的HBM2e方法。這兩種方法各有優(yōu)缺點(diǎn),因此我們迫不及待地想對(duì)Xeon Max處理器進(jìn)行測(cè)試。值得注意的是,富士通的A64FX Arm處理器使用了類(lèi)似的HBM技術(shù)。配備HBM的A64FX處理器為Fugaku超級(jí)計(jì)算機(jī)提供動(dòng)力,該超級(jí)計(jì)算機(jī)多年來(lái)一直是世界上最快的(直到去年由AMD驅(qū)動(dòng)的百億億級(jí)Frontier接管)。Fugaku仍然保持在Top500的第二位。英特爾還推出了之前代號(hào)為Ponte Vecchio 的 Max GPU系列。英特爾此前推出了三種不同的GPU型號(hào),它們均采用標(biāo)準(zhǔn)PCIe和OAM外形規(guī)格。
英特爾傲騰持久內(nèi)存 (PMem) 300
作為Sapphire Rapids發(fā)布的一部分,英特爾悄悄推出了最后一個(gè)系列的傲騰持久內(nèi)存DIMM。最后一代代號(hào)為Crow's Pass 但正式名稱(chēng)為Intel Optane Persistent Memory 300,將提供128、256和512 GB容量,并以DDR5-4400運(yùn)行。這比之前的DDR4-3200峰值有了很大的改進(jìn),但這也意味著如果Sapphire Rapids系統(tǒng)計(jì)劃使用傲騰,則必須將標(biāo)準(zhǔn)內(nèi)存從支持的DDR5-4800降頻到DDR5-4400。英特爾聲稱(chēng)300系列在隨機(jī)工作負(fù)載中提供的順序帶寬增加了56%,帶寬增加了214%,同時(shí)支持每個(gè)插槽高達(dá)4TB的Optane,或系統(tǒng)總?cè)萘繛?TB。就像上一代Optane 200系列一樣,DIMM的運(yùn)行功率為15W。但是,他們現(xiàn)在升級(jí)到DDR-T2接口和AES-XTS 256位加密。在2015年首次亮相時(shí),英特爾和合作伙伴美光吹捧其底層技術(shù)3D XPoint,其性能和耐用性是NAND存儲(chǔ)的1000倍,同時(shí)密度是DRAM的10倍,但該技術(shù)現(xiàn)在即將走到盡頭。英特爾已經(jīng)停止生產(chǎn)用于客戶(hù)端PC的Optane存儲(chǔ)產(chǎn)品,這是有道理的,因?yàn)樗菍⑵銷(xiāo)AND業(yè)務(wù)出售給SK海力士。然而,英特爾保留了其數(shù)據(jù)中心的內(nèi)存業(yè)務(wù),包括其持久內(nèi)存DIMM ,它可以作為主內(nèi)存的附件——只有英特爾提供的功能。在300系列模塊之后,這些產(chǎn)品也不會(huì)出現(xiàn)任何后代。英特爾將行業(yè)轉(zhuǎn)向基于CXL的架構(gòu)作為結(jié)束Optane業(yè)務(wù)的原因,反映了英特爾前合作伙伴美光去年退出該業(yè)務(wù)時(shí)的情緒. Sapphire Rapids同時(shí)支持Optane DIMM 和CXL接口,但這將是最后一次看到兩者同時(shí)出現(xiàn)——CXL將成為未來(lái)業(yè)界將奇異存儲(chǔ)器連接到芯片的首選方法。
英特爾延遲交付旗艦芯片的內(nèi)幕
去年5月,芯片巨頭英特爾的高管桑德拉里維拉 (Sandra Rivera)得到了一些令人震驚的消息。
工程師們花了五年多的時(shí)間來(lái)開(kāi)發(fā)一種功能強(qiáng)大的新型微處理器,以在數(shù)據(jù)中心執(zhí)行計(jì)算任務(wù),并且確信他們最終得到了正確的產(chǎn)品。但在討論該項(xiàng)目的例行早會(huì)上,出現(xiàn)了潛在嚴(yán)重技術(shù)缺陷的跡象。這個(gè)問(wèn)題非常麻煩,以至于微處理器的代號(hào)Sapphire Rapids不得不推遲發(fā)布——這是英特爾多年來(lái)最重要的產(chǎn)品之一遭遇的一系列挫折中的最新一次。“我們非常沮喪,”負(fù)責(zé)英特爾數(shù)據(jù)中心和人工智能集團(tuán)的執(zhí)行副總裁里維拉女士說(shuō)?!斑@是一個(gè)痛苦的決定?!?/span>Sapphire Rapids的發(fā)布時(shí)間最終從2022年年中推遲到本周二,比預(yù)期晚了近兩年。該產(chǎn)品的長(zhǎng)期開(kāi)發(fā)——在一個(gè)封裝中結(jié)合了四個(gè)芯片——凸顯了在美國(guó)試圖確立其在基礎(chǔ)計(jì)算機(jī)技術(shù)領(lǐng)域的主導(dǎo)地位時(shí)英特爾扭虧為盈所面臨的一些挑戰(zhàn)。自1970年代以來(lái),英特爾一直是運(yùn)行大多數(shù)電子設(shè)備的小硅片領(lǐng)域的領(lǐng)先者,最著名的是一種稱(chēng)為微處理器的品種,它在大多數(shù)計(jì)算機(jī)中充當(dāng)電子大腦。但這家硅谷公司近年來(lái)失去了在制造技術(shù)方面的長(zhǎng)期領(lǐng)先優(yōu)勢(shì),而這有助于決定芯片的計(jì)算速度。2021年成為英特爾首席執(zhí)行官的帕特里克·蓋爾辛格 ( Patrick Gelsinger ) 誓言要恢復(fù)其制造優(yōu)勢(shì)并在美國(guó)建立新工廠。Sapphire Rapids的坎坷發(fā)展對(duì)英特爾能否反彈以按時(shí)交付未來(lái)芯片具有影響。這是一個(gè)可能會(huì)影響許多計(jì)算機(jī)制造商和云服務(wù)提供商的問(wèn)題,更不用說(shuō)數(shù)百萬(wàn)使用可能由英特爾技術(shù)提供支持的在線(xiàn)服務(wù)的消費(fèi)者了。“我們想要的是一個(gè)可預(yù)測(cè)的穩(wěn)定節(jié)奏,”聯(lián)想負(fù)責(zé)服務(wù)器銷(xiāo)售的執(zhí)行副總裁柯克斯考根說(shuō),這家中國(guó)公司計(jì)劃推出25個(gè)基于新處理器的新系統(tǒng)。“Sapphire Rapids是旅程的開(kāi)始?!?/span>對(duì)英特爾來(lái)說(shuō),壓力還在。隨著對(duì)用于個(gè)人電腦的芯片的需求下降,該公司在其最賺錢(qián)的業(yè)務(wù)服務(wù)器芯片方面面臨著激烈的競(jìng)爭(zhēng)。這個(gè)問(wèn)題令華爾街感到擔(dān)憂(yōu),自從Gelsinger上任以來(lái),英特爾的市值暴跌超過(guò) 1200 億美元。在周二的在線(xiàn)活動(dòng)中討論以科羅拉多河的一部分命名的Sapphire Rapids,英特爾客戶(hù)描述了使用該處理器的計(jì)劃,他們表示這將為人工智能任務(wù)帶來(lái)特別的好處。該產(chǎn)品的正式名稱(chēng)為第4代英特爾至強(qiáng)可擴(kuò)展處理器,與至強(qiáng)芯片系列的另一個(gè)延遲添加一起推出。該產(chǎn)品以前的代號(hào)為 Ponte Vecchio,旨在加速特殊用途的工作,并與Sapphire Rapids一起用于高性能計(jì)算機(jī)。Gelsinger先生在接受采訪(fǎng)時(shí)說(shuō),盡管有延誤,但 Sapphire Rapids 已經(jīng)具備了成功的條件。他在 2021 年選擇里維拉女士接管開(kāi)發(fā)它的部門(mén),她正在利用經(jīng)驗(yàn)教訓(xùn)改變英特爾設(shè)計(jì)和測(cè)試其產(chǎn)品的方式。他說(shuō)英特爾已經(jīng)對(duì)Sapphire Rapids發(fā)生的事情進(jìn)行了幾次內(nèi)部審查。Sapphire Rapids始于2015年,由一小群英特爾工程師進(jìn)行討論。該產(chǎn)品是該公司首次嘗試采用新的芯片設(shè)計(jì)方法。公司現(xiàn)在通常在每塊硅片上封裝數(shù)百億個(gè)微型晶體管,但像Advanced Micro Devices和其他公司這樣的競(jìng)爭(zhēng)對(duì)手已經(jīng)開(kāi)始用塑料封裝中捆綁在一起的多個(gè)芯片制造處理器。英特爾工程師提出了一種包含四個(gè)裸片的設(shè)計(jì),每個(gè)裸片都有15個(gè)處理器“內(nèi)核”,就像用于通用計(jì)算工作的獨(dú)立計(jì)算器一樣。該公司還決定為特殊任務(wù)(包括人工智能和加密)添加額外的電路塊,并與其他組件通信,例如存儲(chǔ)數(shù)據(jù)的芯片。共同領(lǐng)導(dǎo)英特爾設(shè)計(jì)工程團(tuán)隊(duì)的Shlomit Weiss說(shuō),這么多元素之間的相互作用“非常復(fù)雜”?!皬?fù)雜性通常會(huì)帶來(lái)問(wèn)題?!?/span>Sapphire Rapids團(tuán)隊(duì)努力解決由設(shè)計(jì)人員錯(cuò)誤或制造故障引起的缺陷、缺陷,這些缺陷可能導(dǎo)致芯片進(jìn)行錯(cuò)誤計(jì)算、工作緩慢或停止運(yùn)行。他們還受到產(chǎn)品制造過(guò)程延遲的影響。但月,工程師們達(dá)到了一個(gè)里程碑,稱(chēng)為“流片”。那時(shí),包含完整設(shè)計(jì)的電子文件會(huì)被轉(zhuǎn)移到工廠制作樣品芯片。由于Covid-19迫使封鎖,樣品芯片于2020年初運(yùn)抵。工程師們很快就讓Sapphire Rapids上的計(jì)算核心相互通信,該項(xiàng)目的總工程師Nevine Nassif說(shuō)。但比預(yù)期更多的工作仍然存在。一項(xiàng)關(guān)鍵的雜務(wù)是“驗(yàn)證”,這是一個(gè)測(cè)試過(guò)程,英特爾及其客戶(hù)在樣本芯片上運(yùn)行軟件以模擬計(jì)算雜務(wù)并發(fā)現(xiàn)錯(cuò)誤。一旦發(fā)現(xiàn)并修復(fù)缺陷,設(shè)計(jì)可能會(huì)返回工廠制造新的測(cè)試芯片,這通常需要一個(gè)多月的時(shí)間。重復(fù)該過(guò)程導(dǎo)致錯(cuò)過(guò)最后期限。Nassif女士說(shuō),Sapphire Rapids旨在對(duì)抗AMD的Milan處理器,該處理器于2021年3月推出。但到6月它仍未準(zhǔn)備就緒,當(dāng)時(shí)英特爾宣布推遲到明年進(jìn)行更多驗(yàn)證。就在那時(shí),里維拉女士介入了。這位長(zhǎng)期擔(dān)任英特爾高管的人在2019年被任命為首席人力資源官之前,已經(jīng)成功地建立了網(wǎng)絡(luò)產(chǎn)品業(yè)務(wù)。“我們必須恢復(fù)執(zhí)行力,”基辛格先生說(shuō)。“我需要有人能夠挺身而出,為我解決這個(gè)問(wèn)題。”2021年10月,Rivera女士和一位高級(jí)設(shè)計(jì)主管建立了每周一次的Sapphire Rapids狀態(tài)會(huì)議,每周一早上 7 點(diǎn)舉行。她說(shuō),這些會(huì)議表明在查找和修復(fù)錯(cuò)誤方面取得了穩(wěn)步進(jìn)展,這增強(qiáng)了人們對(duì)2022年第二季度開(kāi)始生產(chǎn)的信心.然后是去年五月發(fā)現(xiàn)的缺陷。里維拉女士不愿詳細(xì)描述,但表示它影響了處理器的性能。6月,她利用一次投資者活動(dòng)宣布延遲至少四分之一,這將Sapphire Rapids推遲到了11月。“我們已經(jīng)準(zhǔn)備好發(fā)貨了,”納西夫女士說(shuō)。最后的延遲“考慮到已經(jīng)付出的所有努力,真是太令人難過(guò)了?!?/span>里維拉女士從挫折中看到了一系列教訓(xùn)。一個(gè)原因很簡(jiǎn)單,英特爾在Sapphire Rapids中包含了太多的創(chuàng)新,而不是更早地提供一個(gè)不那么雄心勃勃的產(chǎn)品。她還得出結(jié)論,該團(tuán)隊(duì)?wèi)?yīng)該花更多時(shí)間使用計(jì)算機(jī)模擬來(lái)完善和測(cè)試其設(shè)計(jì)。里維拉女士說(shuō),在樣品芯片出現(xiàn)錯(cuò)誤之前發(fā)現(xiàn)錯(cuò)誤成本較低,并且可以刪除功能以簡(jiǎn)化產(chǎn)品。此后,她轉(zhuǎn)而加強(qiáng)英特爾的模擬和驗(yàn)證能力。“我們?cè)?jīng)有很多這樣的肌肉,我們?nèi)纹湮s,”里維拉女士說(shuō)?!艾F(xiàn)在我們正在重建?!?/span>她還確定英特爾安排的產(chǎn)品數(shù)量超過(guò)了其工程師和客戶(hù)能夠輕松處理的數(shù)量。因此,她簡(jiǎn)化了產(chǎn)品路線(xiàn)圖,包括將Sapphire Rapids的繼任者從2023年推遲到2024 年。更廣泛地說(shuō),里維拉女士和其他英特爾高管推動(dòng)該組織開(kāi)發(fā)更好的流程來(lái)記錄技術(shù)問(wèn)題,并在公司內(nèi)外共享該信息。來(lái)源:光刻人的世界*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。