芯片,太耗電了
處理器和數(shù)據(jù)中心架構(gòu)正在發(fā)生變化,以滿足運(yùn)行 AI 和大型語言模型 (LLM) 的服務(wù)器的更高電壓需求。
曾經(jīng),服務(wù)器運(yùn)行時耗電量只有幾百瓦。但在過去幾十年里,由于需要處理的數(shù)據(jù)量大幅增加,以及用戶要求更快處理數(shù)據(jù),情況發(fā)生了巨大變化。NVIDIA 的Grace Blackwell芯片消耗 5 到 6 千瓦,這大約是過去服務(wù)器功耗的 10 倍。
功率是電壓乘以電流?!叭绻倚枰?5 千瓦,我可以在 120 伏的標(biāo)準(zhǔn)電壓下實現(xiàn),” Rambus的杰出發(fā)明家 Steven Woo 說道。“但我需要 40 安培的電流,這是很大的電流?!?/span>
這類似于你在五金店購買的那種電線。“超大電流電線有很多不同的直徑,而且非常粗,”Woo 說。“以前大家都認(rèn)為服務(wù)器的功率可能是 1 或 2 千瓦,對于 120 伏電壓,你只需提供 10 安培的電流?,F(xiàn)在,由于功率需求高得多,如果我將電壓保持在 120 伏,我必須提供四倍甚至更高的電流,但電線無法承受這么大的電流。它們會熔化。”
如果不能提高電流,那么另一個選擇就是提高電壓?!半娏鞒艘噪妷罕仨毜扔?5 千瓦,”Woo 指出?!叭缃穹?wù)器的電壓為 48 伏,而以前是 12 伏。現(xiàn)在 NVIDIA 正在討論 48 伏,他們將電壓提高了四倍,這使得他們能夠在保持電流不變的情況下將功率提高四倍?!?/p>
這種變化反映在電源上。西門子 EDA 嵌入式電路板系統(tǒng)部市場開發(fā)經(jīng)理 Rod Dudzinski 指出:“我們看到客戶在構(gòu)建大型數(shù)據(jù)中心時,尋求不同的途徑來提供運(yùn)行機(jī)架式系統(tǒng)所需的電力。一些數(shù)據(jù)中心公司正在借鑒高性能電源模塊和相關(guān)電力電子產(chǎn)品的理念和概念來實現(xiàn)這一目標(biāo),例如高效的電源轉(zhuǎn)換為熱效率再到終身可靠性。到 2025 年,傳統(tǒng)數(shù)據(jù)中心的功耗預(yù)計將增加 50%,因此,電路板級電源轉(zhuǎn)換效率和功率密度對于系統(tǒng)架構(gòu)師來說是首要考慮因素,應(yīng)將其作為減少系統(tǒng)中每個 PCB 配電網(wǎng)絡(luò) (PDN) 損耗的手段。”
類似的變化也反映在 EDA 中。Movellus 戰(zhàn)略營銷副總裁 Lee Vick 表示,數(shù)據(jù)中心電源領(lǐng)域正在發(fā)生的事情與 EDA 領(lǐng)域正在發(fā)生的事情有相似之處?!霸谛酒O(shè)計領(lǐng)域,我們過去的情況是,通過 EDA 工具流程單獨(dú)制作晶體管,但這些工具是一系列不同的工具——布局工具、時序工具、布線工具。最終,我們不得不轉(zhuǎn)向一個集成這些工具、集成流程和集成數(shù)據(jù)的世界,以滿足現(xiàn)代世界的性能需求。現(xiàn)在,即使是 EDA 公司也不會止步于設(shè)計,因為你必須管理芯片的生命周期,從設(shè)計到測試和制造,一直到現(xiàn)場,在那里他們會對設(shè)備進(jìn)行檢測并捕獲遙測數(shù)據(jù),以反饋到設(shè)計過程中并改進(jìn)測試。這是一個完整的生命周期。這是一個完全集成的垂直流程(即使它在時間框架上是水平的),這是至關(guān)重要的。”
類似的趨勢也適用于數(shù)據(jù)中心的電力。“以前,當(dāng)你設(shè)計芯片時,你會有一個電力預(yù)算,”維克說?!盎蛘?,如果你是一名工程師,你被賦予一個模塊來設(shè)計,你會有一個針對該特定模塊的電力預(yù)算,你不敢超出這個預(yù)算。但這就是你需要關(guān)心的一切——輸入和輸出?,F(xiàn)在情況已經(jīng)不同了。在數(shù)據(jù)中心,我們看到需求已經(jīng)遠(yuǎn)遠(yuǎn)超出了子集或芯片,擴(kuò)展到主板、機(jī)架、數(shù)據(jù)中心層面。當(dāng)你談?wù)搶θ蚍秶鷥?nèi)有意義的能源需求時,是時候?qū)⑺羞@些都付諸實施了。”
這里的連鎖反應(yīng)很重要,而不僅僅是必須將功耗降至最低?!懊總€人都必須將功耗降至最低,”他說?!坝邢拗疲行枨?,有變化正在發(fā)生,你必須能夠?qū)λ鼈冏龀龇磻?yīng)。另一個關(guān)鍵的事情是,我們已經(jīng)遠(yuǎn)遠(yuǎn)超越了假設(shè),超越了‘這是未來的事情’的夸張。在最近的 DAC 上,我們有一個小組,討論的是管理千瓦功率預(yù)算。我們有來自 IC 設(shè)計、EDA、IP 和系統(tǒng)設(shè)計的行業(yè)專家。所有這些部分都發(fā)揮了作用。這不是 IP 提供商、芯片設(shè)計師或 EDA 公司可以單獨(dú)解決的問題。這需要每個人共同努力。同樣,在數(shù)據(jù)中心,我們必須改善分配和冷卻,這只會在宏觀層面增加能耗。但現(xiàn)代數(shù)據(jù)中心的芯片和芯片內(nèi)部的大量芯片和計算元件的規(guī)模只會加劇這種情況?!?/p>
Ansys首席應(yīng)用工程師 Ashutosh Srivastava認(rèn)為,這種情況是雙向的,因為芯片設(shè)計會導(dǎo)致功耗激增,因為最新的 AI 芯片(包括 GPU)在進(jìn)行更大、更快的計算時會消耗更多能量。在某些情況下,每臺服務(wù)器的功耗超過 2 千瓦?!芭c此同時,芯片架構(gòu)師也在尋求設(shè)計一種芯片來優(yōu)化功耗而不影響性能,因為它們的運(yùn)行成本會更高——不僅是電力成本,還有冷卻基礎(chǔ)設(shè)施。”
此外,數(shù)據(jù)中心的上游配電也正在發(fā)生變化,以適應(yīng)更大的電力需求,其中包括將機(jī)架中的分布式總線電壓從舊的 12V 更改為 48V。Srivastava 表示:“通過將電壓提高 4 倍,電流減少了 4 倍,傳導(dǎo)損耗減少了 16 倍。機(jī)架中的每個轉(zhuǎn)換器也經(jīng)過重新設(shè)計,以提高效率。通過轉(zhuǎn)換器的放置,可以優(yōu)化與芯片直接供電相關(guān)的功率損耗。將芯片的電源直接堆疊在頂部有助于減少這種功率損耗?!?/p>
新數(shù)據(jù)中心考慮因素
數(shù)據(jù)中心設(shè)計的另一個重要考慮因素是其位置?!巴ǔ?,這些數(shù)據(jù)中心位于城市地區(qū),因此數(shù)據(jù)中心的能源效率不高——與人口的電力需求競爭可能會限制其容量,”Srivastava 說。“因此,一些地區(qū)禁止建造新的數(shù)據(jù)中心,如果情況緊急,數(shù)據(jù)中心將需要減少其電力負(fù)荷,以便為社區(qū)的其他重要區(qū)域供電。這意味著要么制造節(jié)能的計算硬件,要么尋找替代電源。這導(dǎo)致了另一種趨勢,大型數(shù)據(jù)中心現(xiàn)在正在考慮建造自己的發(fā)電廠來提供所需的電力,尤其是來自可持續(xù)和可靠來源的電力。這可能采用傳統(tǒng)的太陽能或風(fēng)能與儲能相結(jié)合的形式,甚至正在開發(fā)中的小型模塊化核反應(yīng)堆 (SMR)?!?/p>
數(shù)據(jù)中心的電源管理是一項不斷發(fā)展的挑戰(zhàn)。Cadence 產(chǎn)品工程總監(jiān) Mark Fenton 表示: “IT 負(fù)載在一天中可能會發(fā)生很大波動,受到各種應(yīng)用程序需求的影響?!?nbsp;“機(jī)柜的功率是一組復(fù)雜的變化變量——其當(dāng)前用電量、未來項目的預(yù)算容量以及最大設(shè)計限制。反過來,電力分配和容量可以在多個數(shù)據(jù)中心之間共享?!?/span>
例如,在共置環(huán)境中,用戶不斷調(diào)整對共享系統(tǒng)的需求,幾乎不了解 IT 已安裝或即將安裝的內(nèi)容?!靶碌?GPU 工作負(fù)載表現(xiàn)出不同的功率行為,通常會導(dǎo)致大量且?guī)缀跛矔r的功率峰值,”Fenton 說。“這些波動對數(shù)據(jù)中心電力基礎(chǔ)設(shè)施構(gòu)成了重大的故障風(fēng)險,這是一個主要問題。為了優(yōu)化效率并最大限度地利用可用功率,利用三相電源是有益的。但平衡相位以防止效率低下至關(guān)重要?!?/span>
電壓轉(zhuǎn)換中的功率損耗
數(shù)據(jù)中心的電壓轉(zhuǎn)換涉及多個轉(zhuǎn)換和調(diào)節(jié)階段,這可能導(dǎo)致嚴(yán)重的功率損耗?!叭绻业姆?wù)器現(xiàn)在有 48 伏電壓,那么問題在于芯片本身仍然需要在 12 伏或 5 伏,甚至 1 伏電壓下運(yùn)行,”Rambus 的 Woo 說道。“這意味著必須降低電壓。但每次降低電壓時,都會損失一些功率,因此效率會開始下降。這是因為轉(zhuǎn)換電壓水平需要功率,所以這是一個大問題。轉(zhuǎn)換不同的電壓會消耗大量功率?!?/p>
這意味著數(shù)據(jù)中心基礎(chǔ)設(shè)施必須將建筑公用設(shè)施電源轉(zhuǎn)換為機(jī)架級的單相或三相電源?!半妷嚎赡軙?13.8 kV(中壓)降至 480 V 或 208 V(低壓),隨后降至 240 V 或 120 V,”Fenton 說?!安糠重?fù)載下的效率往往更高,而且由于大多數(shù)電源采用 2N 冗余供電,因此系統(tǒng)的很大一部分在這些部分負(fù)載條件下運(yùn)行。”
Ansys 高級應(yīng)用工程師 Steve Chwirka 指出,損耗始于將公用電源從 480V 交流電降壓的大型變壓器?!斑@種新的較低交流電壓通過多種類型的電纜和 PDU(配電單元)進(jìn)行分配,這些 PDU 基本上是非常大的母線。所有這些都會導(dǎo)致系統(tǒng)中的傳導(dǎo)損耗。有幾種電源轉(zhuǎn)換級別也與功率損耗有關(guān)。其中包括不間斷電源 (UPS),它在故障條件下為機(jī)架供電,時間剛好夠備用發(fā)電機(jī)啟動。主要的轉(zhuǎn)換發(fā)生在機(jī)架上,交流電壓轉(zhuǎn)換為高壓直流,然后通過電源單元 (PSU) 轉(zhuǎn)換為較低的直流電壓。這個直流電壓現(xiàn)在要經(jīng)過幾個級別的轉(zhuǎn)換,才能到達(dá)實際的芯片。”
在每個級別,功率損耗量都不同。從公用設(shè)施輸入到芯片,Chwirka 對功率損耗進(jìn)行了一些估算?!半娏ψ儔浩魇欠浅8咝У臋C(jī)器,損耗僅為 1% 到 2%。UPS 系統(tǒng)的效率會根據(jù)其設(shè)計和負(fù)載條件而有所不同。提供最高級別保護(hù)的在線 UPS 系統(tǒng)的效率通常為 90% 到 95% 之間。因此,它們會損耗 5% 到 10% 的電力。PDU 也有一些固有損耗。這些損耗會導(dǎo)致大約 1% 到 2% 的額外損耗。現(xiàn)代 PSU 的效率通常為 80% 到 95% 之間。這意味著在從交流轉(zhuǎn)換為直流的過程中可能會損耗 5% 到 20% 的功率。額外的轉(zhuǎn)換器(有時稱為中間總線轉(zhuǎn)換器 (IBS))將機(jī)架的 48 V DC 轉(zhuǎn)換為 8 到 12 V DC,效率可高達(dá) 98% 左右。由于尺寸限制,芯片所需的低電壓的最終轉(zhuǎn)換效率比IBC略低?!?/span>
關(guān)于電力輸送你需要知道什么
在設(shè)計數(shù)據(jù)中心環(huán)境時需要考慮很多因素,其中最重要的事情之一就是高電壓周圍的基礎(chǔ)設(shè)施?!叭绻唠妷哼M(jìn)入系統(tǒng),你需要知道如何將電壓降低到你需要的水平,”Woo 指出。“可能是一些外部電路在進(jìn)行降壓。有一些片上方法可以在小范圍的電壓上進(jìn)行電壓管理。最重要的是真正了解你的芯片將消耗多少電量,并了解這些電量來自哪里。這通常是一個系統(tǒng)級問題。還有關(guān)于老化的問題,因為有時芯片升溫時會發(fā)生膨脹。制造芯片的不同材料的膨脹速率都不同,如果進(jìn)行熱循環(huán)(即在高溫和低溫之間頻繁切換),這可能會導(dǎo)致開裂和其他可靠性問題?!?/p>
架構(gòu)也有影響。Ansys 研究員 Norman Chang 解釋說,隨著 3D-IC 芯片組越來越大,芯片架構(gòu)師需要考慮將電源垂直分配到芯片組,例如 Tesla D1 Dojo 芯片中的電源系統(tǒng)設(shè)計。“架構(gòu)師還需要考慮熱分布,因為通過系統(tǒng)技術(shù)協(xié)同優(yōu)化,3D-IC 中放置了數(shù)十個芯片,”他說?!?D-IC 中的模擬/混合信號設(shè)計需要放置在對峰值計算工作負(fù)載產(chǎn)生的熱/應(yīng)力變化不太敏感的位置。
最終,數(shù)據(jù)中心電力輸送方面的挑戰(zhàn)將落入芯片和系統(tǒng)架構(gòu)師的視野。Movellus 的 Vick 表示:“作為一名計算機(jī)架構(gòu)師,我非常注重數(shù)字化和處理器。后來我開始為硬 IP 公司工作,他們會問‘你們的供電有多少個脈沖?’我會說‘我不知道。電源就在那里。它總是干凈的,你不必?fù)?dān)心?!珜嵤┖图傻纫蛩睾苤匾愕碾娫从卸喔蓛?,以及你如何布線。我們在架構(gòu)層面看到的一件事是,當(dāng)你集成電路的模擬部分時,無論是電源調(diào)節(jié)、傳感器還是時鐘,你必須將模擬電壓運(yùn)行到傳統(tǒng)數(shù)字區(qū)域這一簡單事實可能會嚴(yán)重破壞你的設(shè)計。假設(shè)我有一大塊消耗大量能源的數(shù)字邏輯。我想看看電網(wǎng)上發(fā)生了什么。我想看看是否出現(xiàn)了信號下降。但你卻想讓我把一個模擬傳感器塞進(jìn)所有這些數(shù)字門海的中間。這很難做到。”
將模擬設(shè)計遷移到數(shù)字設(shè)計可以讓你更自由地進(jìn)行更多儀表操作并了解正在發(fā)生的事情。“這是超出模塊功能范圍的一個例子,”維克說?!芭叮?dāng)然,這與實施有很大關(guān)系,所以我們正在從深奧的東西轉(zhuǎn)向現(xiàn)實世界,現(xiàn)實世界的實施很重要。這不是我是否可以設(shè)計這個東西,或者我是否可以獲得最佳的 TOPS/watt 數(shù)字。我可以在實際設(shè)計中實際實現(xiàn)它嗎?我能處理嘈雜的電源嗎?我能否處理不再設(shè)計得足夠堅固以承受我扔給它的任何東西的電網(wǎng),因為如果你設(shè)計那樣,你將失去競爭力。所需的裕度和過度設(shè)計量表明我再也無法承受那樣的設(shè)計,這意味著現(xiàn)在我的電網(wǎng)本身受到與我的邏輯相同的設(shè)計約束。它正行駛在那條崎嶇的邊緣,有時它會出現(xiàn)偏移,會出現(xiàn)掙扎,我必須從硬件和軟件的角度來考慮這個問題,而不是假設(shè)有無限的清潔能源?!?/p>
來源:半導(dǎo)體行業(yè)觀察
--End--
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。