有選擇的后摩爾堆疊時(shí)代
臺(tái)積電、英特爾等大廠近年來(lái)不斷加大對(duì)異構(gòu)集成制造及相關(guān)研發(fā)的投入。隨著 AIGC、8K、AR/MR 等應(yīng)用的不斷發(fā)展,3D IC 堆疊和 chiplet 異構(gòu)集成已成為滿足未來(lái)高性能計(jì)算需求、延續(xù)摩爾定律的主要解決方案。
本文引用地址:http://cafeforensic.com/article/202310/451209.htm不久前,華為公布了一項(xiàng)芯片堆疊技術(shù)的新專(zhuān)利,顯示了該公司在芯片技術(shù)領(lǐng)域的創(chuàng)新實(shí)力。這項(xiàng)專(zhuān)利提供了一種簡(jiǎn)化芯片堆疊結(jié)構(gòu)制備工藝的方法,有望解決芯片堆疊過(guò)程中的各種技術(shù)難題。堆疊技術(shù)可以提高芯片的效率,并更好地利用可用空間,進(jìn)一步推動(dòng)芯片技術(shù)的進(jìn)步。盡管目前該專(zhuān)利與將兩個(gè) 14nm 芯片堆疊成一個(gè) 7nm 芯片的傳聞還未得到官方認(rèn)可,但這一技術(shù)潛力巨大,可以為芯片制造商帶來(lái)更多可能性。
后摩爾時(shí)代,堆疊已經(jīng)大勢(shì)。
計(jì)算堆疊需求
隨著 AIGC、AR/VR、8K 等應(yīng)用的快速發(fā)展,預(yù)計(jì)將產(chǎn)生大量的計(jì)算需求,特別是對(duì)能夠在短時(shí)間內(nèi)處理大數(shù)據(jù)的并行計(jì)算系統(tǒng)的需求。為了克服 DDR SDRAM 的帶寬限制,進(jìn)一步提升并行計(jì)算性能,業(yè)界越來(lái)越多地采用高帶寬內(nèi)存(HBM)。這一趨勢(shì)導(dǎo)致了從傳統(tǒng)的「CPU+內(nèi)存(如 DDR4)」架構(gòu)向「芯片+HBM 堆疊」2.5D 架構(gòu)的轉(zhuǎn)變。隨著計(jì)算需求的不斷增長(zhǎng),未來(lái)可能會(huì)通過(guò) 3D 堆疊實(shí)現(xiàn) CPU、GPU 或 SoC 的集成。
9 月中旬根據(jù)韓國(guó) The Elec 報(bào)道,三星電子和 SK 海力士?jī)杉夜炯铀偻七M(jìn) 12 層 HBM 內(nèi)存量產(chǎn)。生成式 AI 的爆火帶動(dòng)英偉達(dá)加速卡的需求之外,也帶動(dòng)了對(duì)高帶寬存儲(chǔ)器(HBM)的需求。HBM 堆疊的層數(shù)越多,處理數(shù)據(jù)的能力就越強(qiáng),目前主流 HBM 堆疊 8 層,而下一代 12 層也即將開(kāi)始量產(chǎn)。
報(bào)道稱 HBM 堆疊目前主要使用正使用熱壓粘合(TCB)和批量回流焊(MR)工藝,而最新消息稱三星和 SK 海力士正在推進(jìn)名為混合鍵合(Hybrid Bonding)的封裝工藝,突破 TCB 和 MR 的發(fā)熱、封裝高度等限制。
Hybrid Bonding 中的 Hybrid 是指除了在室溫下凹陷下去的銅 bump 完成鍵合,兩個(gè) Chip 面對(duì)面的其它非導(dǎo)電部分也要貼合。因此,Hybrid Bonding 在芯粒與芯?;蛘?wafer 與 wafer 之間是沒(méi)有空隙的,不需要用環(huán)氧樹(shù)脂進(jìn)行填充。三星電子和 SK 海力士等主要公司已經(jīng)克服這些挑戰(zhàn),擴(kuò)展了 TCB 和 MR 工藝,實(shí)現(xiàn)最高 12 層。
被堆疊「棄選」?
HBM 于 2013 年推出,作為高性能 SDRAM 的 3D 堆疊架構(gòu)。隨著時(shí)間的推移,多層 HBM 的堆疊在封裝中已經(jīng)變得普遍,而 CPU/GPU 的堆疊卻沒(méi)有看到重大進(jìn)展。
造成這種差異的主要原因可歸因于三個(gè)因素:
1、散熱問(wèn)題,CPU 在工作時(shí)會(huì)產(chǎn)生大量的熱量,需要通過(guò)散熱器將熱量散發(fā)出去,否則會(huì)導(dǎo)致 CPU 溫度過(guò)高而損壞。如果多個(gè) CPU 堆疊在一起,熱量積聚在一起會(huì)導(dǎo)致散熱問(wèn)題更加嚴(yán)重,從而影響 CPU 的穩(wěn)定運(yùn)行。
2、信號(hào)干擾問(wèn)題,在 CPU 內(nèi)部,不同的電路之間需要進(jìn)行大量的信號(hào)傳輸,如果多個(gè) CPU 堆疊在一起,信號(hào)干擾就會(huì)更加嚴(yán)重,從而影響 CPU 的正常工作。
3、電路設(shè)計(jì)問(wèn)題,CPU 內(nèi)部的電路設(shè)計(jì)非常復(fù)雜,需要嚴(yán)格的電路布局和連接方式,以保證 CPU 的正常工作。如果多個(gè) CPU 堆疊在一起,電路設(shè)計(jì)就會(huì)更加復(fù)雜,可能會(huì)導(dǎo)致電路連接不良或者干擾等問(wèn)題。IC 設(shè)計(jì)面臨 EDA 工具缺乏的挑戰(zhàn),因?yàn)閭鹘y(tǒng) CAD 工具不足以處理 3D 設(shè)計(jì)規(guī)則。開(kāi)發(fā)人員必須創(chuàng)建自己的工具來(lái)滿足工藝要求,而 3D 封裝的復(fù)雜設(shè)計(jì)進(jìn)一步增加了設(shè)計(jì)、制造和測(cè)試成本。
然后也不是沒(méi)有解決辦法。自從 2.5D/3D 封裝、Chiplet、異構(gòu)集成等技術(shù)出現(xiàn)以來(lái),CPU、GPU 和內(nèi)存之間的界限就已經(jīng)變得逐漸模糊。例如 AMD 如今在消費(fèi)級(jí)和數(shù)據(jù)中心級(jí)別 CPU 上逐漸使用的 3D V-Cache 技術(shù),就是直接將 SRAM 緩存堆疊至 CPU 上。將在今年正式落地的第四代 EPYC 服務(wù)器處理器,就采用了 13 個(gè) 5nm/6nm Chiplet 混用的方案,最高將 L3 緩存堆疊至了可怕的 384MB。
在消費(fèi)端,AMD 的 Ryzen 7 5800X3D 同樣也以驚人的姿態(tài)出世,以超大緩存帶來(lái)了極大的游戲性能提升。即將正式發(fā)售的 Ryzen 9 7950X3D 也打出了 128MB 三級(jí)緩存的夸張參數(shù),這些產(chǎn)品的出現(xiàn)可謂打破了過(guò)去 CPU 廠商拼時(shí)鐘頻率、拼核心數(shù)的僵局,讓消費(fèi)者真切地感受到了額外的體驗(yàn)提升。
GPU 也不例外,雖然 AMD 如今的消費(fèi)級(jí) GPU 基本已經(jīng)放棄了 HBM 堆疊方案,但是在 AMD 的數(shù)據(jù)中心 GPU,例如 Instinct MI250X,卻依然靠著堆疊做到了 128GB 的 HBM2e 顯存,做到了 3276.8GB/s 的峰值內(nèi)存帶寬。而下一代 MI300,AMD 則選擇了轉(zhuǎn)向 APU 方案,將 CPU、GPU 和 HBM 全部整合在一起,以新的架構(gòu)沖擊 Exascale 級(jí)的 AI 世代。
AMD CEO 蘇姿豐說(shuō)過(guò)下一步就是直接將 DRAM 堆疊至 CPU 上。這里的堆疊并非硅中介層互聯(lián)、存儲(chǔ)單元垂直堆疊在一起的 2.5D 封裝方案,也就是如今常見(jiàn)的 HBM 統(tǒng)一內(nèi)存方案,AMD 提出的是直接將計(jì)算單元與存儲(chǔ)單元垂直堆疊在一起的 3D 混合鍵封裝方案。
CPU 如何垂直堆疊
放緩的摩爾定律,內(nèi)存上的限制,例如內(nèi)存墻這樣的性能瓶頸,不僅在限制 CPU 的性能發(fā)揮,同樣限制了 GPU 的性能發(fā)揮。蘇姿豐指出,從她這個(gè)處理器從業(yè)者的角度來(lái)說(shuō),這一路線有些反常理,但從系統(tǒng)層面來(lái)說(shuō),她也可以理解該需求存在的意義。而 AMD 這次提出的方案,則是從計(jì)算芯片出發(fā),將存儲(chǔ)器堆疊整合進(jìn)去。
3 月 22 日,AMD 宣布全面推出世界首款采用 3D 芯片堆疊的數(shù)據(jù)中心 CPU,即采用 AMD 3D V-Cache 技術(shù)的第三代 AMD EPYC(霄龍)處理器,代號(hào)「Milan-X(米蘭-X)」。這些處理器基于「Zen 3」核心架構(gòu),進(jìn)一步擴(kuò)大了第三代 EPYC 處理器系列產(chǎn)品,相比非堆疊的第三代 AMD EPYC 處理器,可為各種目標(biāo)技術(shù)計(jì)算工作負(fù)載提供高達(dá) 66% 的性能提升。
全新推出的處理器擁有業(yè)界領(lǐng)先的 L3 緩存,并具備與第三代 EPYC CPU 相同的插槽、軟件兼容性以及現(xiàn)代安全功能,同時(shí)還可為技術(shù)計(jì)算工作負(fù)載提供卓越的性能,如計(jì)算流體力學(xué)(CFD)、電子設(shè)計(jì)自動(dòng)化(EDA)和結(jié)構(gòu)分析等。這些工作負(fù)載均是那些需要對(duì)復(fù)雜的物理世界進(jìn)行建模以創(chuàng)建模型的公司的關(guān)鍵設(shè)計(jì)工具,從而為世界上那些極具創(chuàng)新性的產(chǎn)品進(jìn)行測(cè)試或驗(yàn)證工程設(shè)計(jì)。
AMD 高級(jí)副總裁兼服務(wù)器業(yè)務(wù)部總經(jīng)理 Dan McNamara 表示:「基于我們?cè)跀?shù)據(jù)中心一直以來(lái)的發(fā)展勢(shì)頭以及我們的多項(xiàng)行業(yè)首創(chuàng),采用 AMD 3D V-Cache 技術(shù)的第三代 AMD EPYC 處理器展示了我們領(lǐng)先的設(shè)計(jì)與封裝技術(shù),使我們能夠帶來(lái)業(yè)界首個(gè)采用 3D 芯片堆疊技術(shù)且專(zhuān)為工作負(fù)載而生的服務(wù)器處理器。我們最新所采用的 AMD 3D V-Cache 技術(shù)的處理器可為關(guān)鍵任務(wù)的技術(shù)計(jì)算工作負(fù)載提供突破性性能,從而帶來(lái)更好的產(chǎn)品設(shè)計(jì)以及更快的產(chǎn)品上市時(shí)間?!?/span>
Micron 公司高級(jí)副總裁兼計(jì)算與網(wǎng)絡(luò)事業(yè)部總經(jīng)理 Raj Hazra 說(shuō):「客戶正在越來(lái)越廣泛的采用數(shù)據(jù)豐富的應(yīng)用,這對(duì)數(shù)據(jù)中心的基礎(chǔ)設(shè)施也提出了新的要求。Micron 和 AMD 的共同愿景是為高性能數(shù)據(jù)中心平臺(tái)提供領(lǐng)先的 DDR5 內(nèi)存的全部能力。我們與 AMD 之間的深度合作包括為基于 Micron 最新 DDR5 解決方案的 AMD 平臺(tái)做好準(zhǔn)備,以及將采用 AMD 3D V-Cache 技術(shù)的第三代 AMD EPYC 處理器引入我們自己的數(shù)據(jù)中心,我們已經(jīng)看到了在特定的 EDA 工作負(fù)載中,與未采用 AMD 3D V-Cache 的第三代 AMD EPYC 處理器相比,性能提高了多達(dá) 40%?!?/span>
一直以來(lái)緩存大小的提升都是性能改進(jìn)的重中之重,特別是對(duì)于嚴(yán)重依賴大數(shù)據(jù)集的技術(shù)計(jì)算工作負(fù)載。這些工作負(fù)載受益于緩存大小的提升,但 2D 芯片設(shè)計(jì)卻對(duì) CPU 上可有效構(gòu)建的緩存量有著物理上的限制。AMD 3D V-Cache 技術(shù)通過(guò)將 AMD「Zen 3」核心與緩存模塊結(jié)合,解決了這些物理上的挑戰(zhàn),不僅增加了 L3 緩存數(shù)量,同時(shí)還最大程度減少了延遲并提高吞吐量。這項(xiàng)技術(shù)代表了 CPU 設(shè)計(jì)和封裝方面的又一創(chuàng)新,并為目標(biāo)技術(shù)計(jì)算工作負(fù)載帶來(lái)了突破性性能。
英偉達(dá)的專(zhuān)利
早在 2017 年,英偉達(dá)就在國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)研討會(huì) (ISCA) 上展示了其 MCM-GPU 設(shè)計(jì)。英偉達(dá)計(jì)劃使用多個(gè)邏輯芯片來(lái)互連大量?jī)?nèi)核,并開(kāi)發(fā)具有持續(xù)性能改進(jìn)的新 GPU,同時(shí)管理成本。隨著 GPU 芯片越來(lái)越大,它們的成本呈指數(shù)級(jí)增長(zhǎng),因此制作一些相互連接的較小芯片是更具成本效益的解決方案。MCM-GPU 封裝方法解決了這個(gè)問(wèn)題,因?yàn)樗B接多個(gè)芯片,從而提供巨大的性能提升作為回報(bào)。
芯片設(shè)計(jì)不限于二維縮放,而這正是英偉達(dá)今天所獲得的專(zhuān)利。英偉達(dá)提出了「使用擴(kuò)展 TSV 增強(qiáng)功率傳輸?shù)拿鎸?duì)面 die」,提出了半導(dǎo)體 die 的 3D 堆疊,并特別說(shuō)明了使用超長(zhǎng)硅通孔 (TSV) 增強(qiáng)功率傳輸。
這種設(shè)置的工作方式是首先使用芯片表面上的探針墊測(cè)試基礎(chǔ)芯片。之后,在第一個(gè) die 的表面上形成界面層,覆蓋在已經(jīng)存在的探針焊盤(pán)上。最后,取出第二個(gè) die 并將其安裝在界面層上,將 die 間接口的焊盤(pán)連接到其他 die 上的互補(bǔ)連接。這創(chuàng)建了裸片的面對(duì)面安裝,3D 芯片誕生了。
英偉達(dá)的專(zhuān)利專(zhuān)注于使用超長(zhǎng) TSV 增強(qiáng)電力傳輸。當(dāng)像這樣將芯片堆疊在一起時(shí),您可以連接從邏輯(處理核心)到內(nèi)存的任何東西。通常,連接內(nèi)存不需要太多電力,因此提及增強(qiáng)的電力傳輸使我們得出結(jié)論,英偉達(dá)計(jì)劃執(zhí)行處理內(nèi)核的堆疊,為 3D 處理器創(chuàng)建面向計(jì)算的方法。
EDA 的進(jìn)擊
Cadence 在 LIVE 中國(guó)臺(tái)灣 2023 年用戶年會(huì)上強(qiáng)調(diào)了其多年來(lái)在開(kāi)發(fā)解決方案方面的努力。他們推出了 Clarity 3D 解算器、Celsius 熱解算器以及 Sigrity Signal and Power Integrity 等工具,可以解決熱傳導(dǎo)和熱應(yīng)力模擬問(wèn)題。當(dāng)與 Cadence 的綜合 EDA 工具相結(jié)合時(shí),這些產(chǎn)品有助于「Integrity 3D-IC」平臺(tái)的發(fā)展,有助于 3D IC 設(shè)計(jì)的開(kāi)發(fā)。
Intgrity 3D-IC 平臺(tái)是 Cadence 廣泛 3D-IC 解決方案的組成部分,在數(shù)字技術(shù)之上同時(shí)集成了系統(tǒng)、驗(yàn)證及 IP 功能。廣泛的解決方案支持軟硬件協(xié)同驗(yàn)證,通過(guò)由 Palladium Z2 和 Protium X2 平臺(tái)組成的 Dynamic Duo 系統(tǒng)動(dòng)力雙劍實(shí)現(xiàn)全系統(tǒng)功耗分析。平臺(tái)同時(shí)支持基于小芯片的 PHY IP 互聯(lián),實(shí)現(xiàn)面向延遲、帶寬和功耗的 PPA 優(yōu)化目標(biāo)。Intgrity 3D-IC 平臺(tái)支持與 Virtuoso 設(shè)計(jì)環(huán)境和 Allegro 技術(shù)的協(xié)同設(shè)計(jì),通過(guò)與 Quantus Extraction Solution 提取解決方案和 Tempus Timing Signoff Solution 時(shí)序簽核解決方案提供集成化的 IC 簽核提取和 STA,同時(shí)還集成了 Sigrity 技術(shù)產(chǎn)品,Clarity 3D Transient Solver,及 Celsius Thermal Solver 熱求解器,從而提供集成化的信號(hào)完整性/功耗完整性分析(SI/PI),電磁干擾(EMI),和熱分析功能。全新 Integrity 3D-IC 平臺(tái)和更廣泛的 3D-IC 解決方案組合,建立在 Cadence SoC 卓越設(shè)計(jì)和系統(tǒng)級(jí)創(chuàng)新的堅(jiān)實(shí)基礎(chǔ)之上,支持公司的智能系統(tǒng)設(shè)計(jì)(Intelligent System Design)戰(zhàn)略。
評(píng)論