AMD的反擊:Zen 4c
Bergamo 是 AMD 即將推出的 128 核服務(wù)器部件,它在 x86 CPU 性能方面樹立了新的高度。
本文引用地址:http://cafeforensic.com/article/202306/447449.htmBergamo 的架構(gòu)是云原生的,因為摩爾定律逐漸變得緩慢,它代表了數(shù)據(jù)中心 CPU 設(shè)計中的一個重要轉(zhuǎn)折點。Bergamo 的核心是 Zen 4c,這是其成功的 5nm Zen 4 微架構(gòu)的全新 CPU 核心變體,可推動每個插槽擁有更多核心。
雖然到目前為止 Zen 4c 的官方細節(jié)相當少,但 AMD 的首席技術(shù)官在他們的 Ryzen 7000 主題演講中這樣說:「我們的 Zen 4c,它是我們的緊湊密度的補充,它是我們核心路線圖的新賽道,它在大約一半的核心區(qū)域提供與 Zen 4 相同的功能。」
在本文的深入探討中,我們將分享對 Zen 4c 架構(gòu)、市場影響、平均售價、銷量、超大規(guī)模廠商訂單轉(zhuǎn)換的分析,以及 AMD 如何能夠在保持相同核心功能和性能的同時將核心面積減半。
我們將研究為什么 AMD 在 CPU 設(shè)計中追求這條新道路,以應(yīng)對市場需求以及來自亞馬遜、谷歌、微軟、阿里巴巴、Ampere Computing 以及英特爾 x86 Atom E 內(nèi)核的基于 ARM 芯片的競爭。
最后,我們看看 Bergamo 降低的生產(chǎn)成本和預(yù)期的銷量,以及 AMD 未來在客戶端嵌入式和數(shù)據(jù)中心產(chǎn)品線中采用密集核心變體的情況。在深入了解這些市場和架構(gòu)細節(jié)之前,讓我們首先談?wù)劚尘啊?/span>
摩爾定律終結(jié)的云 CPU 時代
Zen 4c 和 Bergamo 的設(shè)計背后的基本原理是提供盡可能多的計算資源,同時隨著摩爾定律放緩而與硅的物理限制作斗爭。盡管要求繼續(xù)增加核心數(shù)量,但這種放緩是一種全行業(yè)的現(xiàn)象,給設(shè)計師帶來了挑戰(zhàn)。
隨著 AMD 將他們的 128 核 Bergamo 推向市場,其競爭對手英特爾正在準備他們的 144 核「Sierra Forest」部分。兩者都在響應(yīng)數(shù)據(jù)中心 ARM CPU 內(nèi)核的興起,從亞馬遜、谷歌、微軟和阿里巴巴的超大規(guī)模內(nèi)部努力到商業(yè)硅 192 核 AmpereOne 云原生 CPU。
隨著 Generative AI 的興起,GPU、加速器和 ASIC 風靡一時,資本支出份額不斷增加,但不起眼的通用 CPU 仍然是全球大多數(shù)數(shù)據(jù)中心部署的基礎(chǔ)骨干。在云計算范例中,最大化計算資源同時最小化總體擁有成本 (TCO) 是游戲的名稱。
增加內(nèi)核數(shù)量是節(jié)省功耗和成本的主要方法之一。插槽整合,即一個新的 CPU 取代四個或更多的舊 CPU,風靡一時。14nm 上有大量 22 到 28 核英特爾 CPU,耗電量大,需要更換。自 2010 年代中期以來,我們就沒有基礎(chǔ)架構(gòu)更換周期,并且云已將服務(wù)器的生命周期從 3 年延長到 6 年。隨著新云原生 CPU 的性能/TCO 改進刺激開發(fā),這種情況很快就會改變。
通過整合,不再需要緩慢且耗電的插座間和網(wǎng)絡(luò)通信,并且需要更少的物理資源 (風扇、電源、電路板等)。即使在同一代中,兩臺 32 核服務(wù)器從根本上講也比一臺提供相同性能水平的 64 核服務(wù)器消耗更多的功率。在云中,使用更少、更大的計算節(jié)點在計算網(wǎng)絡(luò)中啟動、關(guān)閉和遷移客戶端會更簡單。
然而,更多的核心意味著更多的功耗。CPU 插座的熱設(shè)計功率 (TDP) 在過去 7 年里飆升,從 140W 到 400W。2024 平臺將破解 500W。
盡管如此,熱密度增加對功率和冷卻的限制意味著 TDP 不會隨著內(nèi)核數(shù)量的增加而相應(yīng)增長,從而導致每個內(nèi)核的功率預(yù)算下降。以高時鐘速度和功率運行可最大限度地提高每個內(nèi)核的性能和每平方毫米硅的性能,這是成本的基本單位。
目前的趨勢是任何給定工作負載中,每瓦性能是最重要的因素,因此可以要求顯著的價格溢價??纯?AMD 米蘭到熱那亞的過渡,僅僅由于部署密度和每瓦性能的提高,AMD 就能夠要求 80% 的價格上漲。
因此,CPU 架構(gòu)師必須小心平衡其核心設(shè)計以優(yōu)化每瓦性能。與此同時,隨著摩爾定律的放緩,每個晶體管的成本與新的工藝節(jié)點持平,因此這項任務(wù)變得更加困難,因為需要控制晶體管預(yù)算和核心尺寸。
工程師在性能、功耗、面積等方面的信息不完善的情況下做出多變量權(quán)衡的基本設(shè)計決策。在性能、功率、面積 (PPA) 曲線的一端是 IBM 的 Telum,它專注于為遺留大型機式應(yīng)用程序?qū)崿F(xiàn)每個內(nèi)核的最大性能。為了為其銀行、航空公司和政府客戶改進產(chǎn)品,IBM 必須設(shè)計巨大的內(nèi)核、5GHz 以上的時鐘速度和最終的可靠性,這對于較新的容器化分布式工作負載來說成本太高。
另一方面是微控制器中的 CPU 和低功耗移動芯片,它們優(yōu)先考慮能效和最小面積 (成本)。英特爾在智能手機革命中的失敗意味著他們?nèi)狈?ARM 在能效優(yōu)化方面擁有的十年設(shè)計經(jīng)驗。
當 Apple 使用 M1 Mac 擴展其架構(gòu)并擊敗英特爾時,不同的設(shè)計點就體現(xiàn)出來了。多年來,英特爾的高性能 P 核變得越來越臃腫,因為他們繼續(xù)以犧牲功率和面積為代價來追求每核性能和 6GHz 時鐘速度。在服務(wù)器芯片中以 3GHz 的頻率運行相同的核心并不是區(qū)城效率的最佳選擇。
明年英特爾的 Sierra Forest 將通過將他們的 E-core 設(shè)計引入數(shù)據(jù)中心來解決這個問題。從他們的 Atom 低功耗內(nèi)核系列衍生而來,英特爾可以為給定的芯片尺寸封裝 3-4 倍的內(nèi)核。然而,E-cores 的警告是它們減少了指令集架構(gòu) (ISA) 功能級別和較低的每時鐘指令 (IPC),從而導致更差的每核性能和效率。后者被許多工作負載中純粹的核心數(shù)量增加所彌補。
英特爾開始在其客戶端產(chǎn)品線中將 E 核與 P 核結(jié)合起來,以提高每平方毫米的多線程性能,ISA 不匹配會導致一些問題,例如在 P 核上禁用 AVX-512 并需要硬件線程調(diào)度程序來管理工作負載分配到具有截然不同特性的核心。至于全 E 核 Sierra Forest,其重點是提供接近 P 核 Granite Rapids 的插槽性能,同時使用更少的硅。它的繼任者 Clearwater Forest 將在性能和每個插槽的核心數(shù)上全力以赴。
回到 AMD,它既沒有智能手機經(jīng)驗,也沒有獨立的低功耗核心血統(tǒng)設(shè)計團隊。他們的 Zen 核心還必須從 5.7GHz 臺式機擴展到高效筆記本電腦和服務(wù)器。作為對 ARM 和 Atom 的回應(yīng),他們創(chuàng)建了 Zen 4c。
Zen 4c 是 AMD 設(shè)計團隊的共同努力,旨在推出個位于性能、功耗、面積 (PPA) 曲線不同點的內(nèi)核,以更好地適應(yīng)數(shù)據(jù)中心 CPU 工作負載的最新趨勢。AMD 采取了相當機智的舉措,采用了相同的 Zen 4 架構(gòu),并在物理設(shè)計中采用了多種技巧以節(jié)省大量面積。
這意味著相同的 IPC 和 ISA 功能級別,簡化了客戶端的集成。事實上,AMD 還在其低端 4nm Ryzen 7000U「Phoenix」移動處理器中悄悄地將一些 Zen4 內(nèi)核替換為 Zen 4c 內(nèi)核。
在貝加莫,Zen 4c 允許 AMD 將核心數(shù)從 96 增加到 128,同時節(jié)省面積和成本。這種設(shè)計理念的分歧將在未來幾代硬件中增加。
接下來,在最終縮小范圍并涵蓋成本、ASP、超大規(guī)模訂單轉(zhuǎn)換、數(shù)量和非數(shù)據(jù)中心環(huán)境中的采用之前,讓我們先介紹一下具體的技術(shù)細節(jié)。
這是貝加莫的規(guī)格表及其與熱那亞的區(qū)別
6 月將推出兩種型號:完全啟用的 128 核的 EPYC 9754 和縮減的 112 核 EPYC 9734,其中 1/8 Zen4c 內(nèi)核已禁用。與 Genoa 最好的 96 核 EPYC 9654 相比,Zen 4c 使 Bergamo 能夠在相同的 SP5 插槽和 360W TDP 中安裝 1.33 倍的內(nèi)核數(shù)。
Zen 4c 擁有與 Zen 4 相同數(shù)量的私有緩存,具有相同的 L1 和 1MB L2。保持足夠大的私有緩存在云和虛擬化環(huán)境中很重要。這有助于通過減少對共享資源的依賴來保持性能一致性。
Bergamo 的時鐘速度也有所下降,基本時鐘降低了 150MHz、提升時鐘降低了 600MHz。當然,相同 360W 插座 TDP 中的更多內(nèi)核意味著更低的工作頻率。Bergamo 在原始 CPU 吞吐量 (內(nèi)核 x 基本時鐘) 方面仍然具有 1.25 倍的優(yōu)勢,雖然 Genoa 可以提升得更高,但這只會在較低利用率的情況下有所幫助。Bergamo 專注于云環(huán)境,其中可預(yù)測的性能是關(guān)鍵,時鐘速度的工作范圍較低。
與 Bergamo 的另一個主要區(qū)別在于裸片和 L3 緩存配置。CCD 的數(shù)量從熱那亞的 12 個減少到貝加莫的 8 個,這意味著貝加莫的每個 CCD 有 16 個 Zen 4c 內(nèi)核,而熱那亞有 8 個 Zen 4 內(nèi)核。
Bergamo 還看到了每個 CCD 多個 CCX 的回歸,最后一次出現(xiàn)在 EPYC 7002「羅馬」一代上。這會將裸片一分為二,其中一半的內(nèi)核只能通過長途往返 IO 裸片來與另一半通信。
這對性能的影響將在下面詳細說明。雖然 Bergamo 的每個 CCX 仍有 8 個內(nèi)核可以進行本地通信,但它們的共享 L3 緩存已減半至 16MB。這種半尺寸的 L3 也出現(xiàn)在 AMD 的移動設(shè)計中,以節(jié)省面積。雖然這會在某些工作負載中損害 IPC,但這對 Bergamo 來說是有意義的,因為它較少關(guān)注共享資源,而更多地關(guān)注每平方毫米的性能。那些尋找大型 L3 選項的人可以期待 Genoa-X 及其高達 1152MB 的 L3。
Bergamo 使用與 Genoa 相同的 IO Die,因此 SP5 插槽 IO 與 DDR5-4800 的 12 通道 128 條 PCIe 5.0 通道和雙插槽能力相同。然而,Bergamo 的 IO Die 僅連接到 8 個 CCD,而 Genoa 則為 12 個,這帶來了一個問題:AMD 是否可以制作 12 CCD、192 核 Bergamo?
IO 芯片具有 12 個全局內(nèi)存互連 3(GMI3) 小芯片鏈路,通過封裝基板布線。在 Genoa,遠離 IO Die 的 CCD 的 GMI3 線布線在較近的 CCD 的 L3 緩存區(qū)域下方。
事實證明,這在 Bergamo 上更加困難,因為 Zen 4c CCD 的更高密度意味著必須使用更多層將電線布線在較近的 CCD 的較小 L3 下方。我們可以通過 CCD 芯片放置看到這個的視覺結(jié)果。
在 Genoa 上,每組 3 個 CCD 并排放置,而在 Bergamo 上,CCD 之間留有間隙,以便為布線留出空間。該封裝還在中間布線 PCIe,上下布線 DDR5,因此可用空間不足以容納 12 個 Zen 4c CCD。
模具拍攝、平面圖和核心分析
這是 Bergamo 的 Zen 4c CCD 的模版,代號為「Vindhya」。這是使用 Zen 4 CCD 的資產(chǎn)制作的,代號為「Durango」,由 AMD 在 ISSCC 2023 上提供。請注意兩個 8 核 CCXCompute Complexes 彼此并排,每個都有 16MB 的共享 L3。L3 也沒有用于 3D V-Cache 的硅通孔 (TSV) 陣列,從而節(jié)省了一小部分面積。這是有道理的,因為云工作負載不會從大量共享緩存中獲益太多。
然而,這里真正令人驚嘆的是芯片尺寸。16 個 Zen 4c 核心略大于 8 個 Zen 4 核心。在 ISSCC 2023 上,AMD 透露 Zen4 的 CCD 為 66.3mm2。這是邊緣沒有芯片密封和劃線的設(shè)計區(qū)域。Zen 4c 的 CCD 設(shè)計面積只有 72.7mm2,大了不到 10%。
請記住,每個芯片上有雙倍的內(nèi)核、雙倍的 L2 緩存和相同數(shù)量的 L3 緩存。核心必須大大縮小,以便在每個芯片上容納更多的緩存,而面積只增加了一小部分。
關(guān)于小芯片互連,Infinity Fabric on Package(IFOP) 在兩個芯片上都是相同的,包括兩個 GMI3-Narrow 鏈路。然而,雖然芯片支持它,但似乎沒有使用兩個 GMI3 鏈接的 Zen 4c 模型。相反,來自兩個獨立 CCX 的信號通過單個鏈路多路復(fù)用到 IO Die。
仔細觀察核心會發(fā)現(xiàn)設(shè)計和布局上的明顯差異。下表列出了代號為「Dionysus」的 Zen 4c 與代號為「Persephone」的 Zen 4 的區(qū)域細分。
與 Zen4 相比,Zen 4c 的核心區(qū)域下降了 35.4%,這是非常了不起的,因為它都包含 1MB 二級緩存。雖然這意味著 L2 SRAM 單元占用相同的面積,但 AMD 能夠通過使 L2 控制邏輯更緊湊來減少 L2 區(qū)域的面積。不包括 L2 和芯片普適邏輯 (CPL) 區(qū)域,核心收縮了驚人的 44.1%,引擎 (前端+執(zhí)行) 區(qū)域幾乎減半。
這就是 Papermaster 所指的,Zen 4c 的驚人工程壯舉與 Zen 4 的設(shè)計基本相同,具有相同的 IPC,只是實現(xiàn)和布局不同。浮點單元 (FPU) 并沒有縮小到完全相同的程度,這可能是由于 thermal hotspots,因為 FPU 通常在承受重壓時是內(nèi)核中最熱的部分。我們還注意到內(nèi)核本身內(nèi)的 SRAM 單元看起來也更加緊湊,面積減少了 32.6%。您可以通過右下角的 Page Table Walker 清楚地看到這一點。
物理設(shè)計技巧
AMD 通過采用完全相同的 Zen 4 寄存器傳輸級 (RTL) 描述來創(chuàng)建 Zen 4c,描述了 Zen 4 核心 IP 的邏輯設(shè)計,并使用更緊湊的物理設(shè)計來實現(xiàn)它。設(shè)計規(guī)則與臺積電 N5 上的兩者相同,但面積差異很大。我們詳細介紹了實現(xiàn)這一點的設(shè)備物理設(shè)計的三個關(guān)鍵技術(shù)。
首先,降低設(shè)計的時鐘目標會導致在合成內(nèi)核時減少面積。這是在 TSMC 的 N5 和 N3E 節(jié)點上合成的 ARM Cortex-A72 CPU 內(nèi)核的速度與面積曲線。即使在同一節(jié)點上使用相同的核心設(shè)計,也可以選擇核心面積和可在其上實現(xiàn)的時鐘速度。
通過較低的時鐘目標,設(shè)計人員在關(guān)鍵路徑的設(shè)計上有更多的工作空間,從而簡化了時序收斂并減少了清除寬松時序約束所需的額外緩沖器單元的數(shù)量?,F(xiàn)在大多數(shù)設(shè)計都受到布線密度和擁塞的限制,較低的工作時鐘使設(shè)計人員能夠?qū)⑿盘柭窂綁嚎s得更近,并提高標準單元密度。
標準單元密度是指設(shè)計中可放置區(qū)域中標準單元所占的比例。標準單元是功能性電路例如觸發(fā)器和反相器,它們在整個設(shè)計中重復(fù)出現(xiàn)并組合形成復(fù)雜的數(shù)字邏輯。正如貼裝軟件的這個特寫視圖所示,它們有許多不同的尺寸。
藍色矩形是標準單元格,而黑色區(qū)域是未填充的。我們突出顯示了一個單元密度低、面積利用率約為 50% 的區(qū)域,以及另一個單元密度高、超過 90% 的區(qū)域。具有大量輸入和輸出信號引腳的標準單元會占用附近的布線資源,有效地阻塞標準單元放置的相鄰空間。
縮小以查看整個核心,可以生成一個單元密度圖,該圖概述了標準單元緊密堆積的區(qū)域 (橙色、黃色) 和面積利用率較低的區(qū)域 (綠色、藍色)。黑色矩形是放置在標準單元之前的大型 SRAM 宏。
這一切意味著 AMD 可以采用他們的 Zen 4 核心并通過向下移動速度與面積曲線來直接縮小,并且核心看起來大致相似但具有更高的單元密度。然而,由于下一個物理設(shè)計方法,Zen 4c 看起來非常不同。
Zen 4c 看起來非常不同,因為它具有更扁平的設(shè)計層次結(jié)構(gòu)和更少的分區(qū)。對于具有數(shù)億個晶體管的如此復(fù)雜的核心設(shè)計,在布局規(guī)劃中將核心分成不同的區(qū)域是有意義的,這樣設(shè)計人員和仿真工具就可以并行工作以加快上市時間 (TTM)。對電路的任何工程更改也可以隔離到一個子區(qū)域,而無需為整個核心重新進行布局和布線過程。
有意分離時序關(guān)鍵區(qū)域還可以幫助解決路由擁塞問題,并通過更少的干擾實現(xiàn)更高的時鐘速度。我們看到 ARM 的 Neoverse V1 和 Cortex-X2 內(nèi)核在邏輯區(qū)域之間沒有硬分區(qū),布局盡可能緊湊。當查看物理管芯時,這些區(qū)域看起來是同質(zhì)的。另一方面,我們看到英特爾的 Crestmont E-core 有許多可見分區(qū),邊界以紫色突出顯示。
正如我們在 Zen 4 內(nèi)核注釋中所見,內(nèi)核中的每個邏輯塊都有許多分區(qū),但在 Zen 4c 中大大減少,只有 4 個分區(qū) (L2、前端、執(zhí)行、FPU)。通過合并 Zen 4 中的這些分區(qū),這些區(qū)域可以更緊密地封裝在一起,通過進一步提高標準單元密度來增加另一種節(jié)省面積的途徑。可以說 AMD 的 Zen 4c「看起來像一個 ARM 內(nèi)核」。
最后一種減少面積的方法是使用更密集的內(nèi)存。Zen 4c 減少了內(nèi)核本身的 SRAM 面積,因為 AMD 已改用新型 SRAM 位單元。圖為具有 8 個晶體管的 8T SRAM 電路圖中間的 4 個晶體管用于存儲 1 位信息,而 2 對存取晶體管為 2 對字線和位線供電。
高性能的 Out-of-Order 核心具有多種功能,可以從同一塊內(nèi)存讀取和寫入,因此使用了這些 8T 雙端口 bitcells。與更密集的 6T 單端口位單元相比,它們占用更多區(qū)域并且需要雙倍的信號路由資源。
為了節(jié)省面積,AMD 用臺積電開發(fā)的新 6T 偽雙端口位單元取代了這些 8T 雙端口位單元。
采用 5nm 技術(shù)的 4.24GHz 128X256 SRAM 操作雙泵讀寫相同周期的相關(guān)論文中,臺積電提出了一種具有單端口 6T bitcell 宏的高速 1R1W 雙端口 32Kbit(128X256)SRAM。
提出了一種具有 TRKBL 旁路的先讀后寫 (RTW) 雙泵 CLK 生成電路,以提高讀取性能。采用雙金屬方案以提高信號完整性和整體操作周期時間。讀出放大器中引入了本地互鎖電路 (LIC),以降低有功功率并進一步推動 Fmax。結(jié)果表明,在 5nmFinFET 技術(shù)中,慢角晶圓能夠在 1.0V 和 100 攝氏度下達到 4.24GHz。
從描述中我們看到,臺積電可以通過在同一時鐘周期內(nèi)進行順序讀寫操作來模擬雙端口位單元。雖然這不如兩個獨立的訪問端口靈活,但面積的減少足以讓 AMD 為 Zen 4c 采用該技術(shù)。隨著 SRAM 面積縮放趨于平緩,我們將看到更多此類面積節(jié)省技術(shù)的發(fā)展。
評論