院士論壇:集成電路推動(dòng)處理器的發(fā)展歷程及未來(lái)展望
引言
集成電路(IC)和計(jì)算機(jī)相伴相生,之間的關(guān)系非常緊密。集成電路的集成度和性能的持續(xù)進(jìn)步,推動(dòng)了計(jì)算機(jī)算力、能效的快速提升。與此同時(shí),計(jì)算的新應(yīng)用拓展也驅(qū)動(dòng)了集成電路等基礎(chǔ)器件的電路架構(gòu)、工藝、集成技術(shù)的不斷創(chuàng)新。
1 IC如何推動(dòng)微處理器的發(fā)展
實(shí)際上,通用計(jì)算機(jī)早于集成電路出現(xiàn)——20世紀(jì)40年代,基于真空電子管的通用計(jì)算機(jī)就在密碼破譯、導(dǎo)彈的軌跡計(jì)算以及原子彈的研制等方面發(fā)揮了重要的作用。
隨著固態(tài)器件即晶體管的發(fā)明,基于晶體管的計(jì)算機(jī)的算力急速提升,成本也大幅下降,使得計(jì)算機(jī)的應(yīng)用從軍事領(lǐng)域拓展到商業(yè)領(lǐng)域。
特別值得一提的是20世紀(jì)70年代初期,英特爾只是一家100多人的小企業(yè),因接受了日本Busicom公司的訂單委托,做一款用于計(jì)算器的處理芯片,最終英特爾完成了在單個(gè)芯片上實(shí)現(xiàn)了一個(gè)完整的處理器的開(kāi)發(fā),誕生了第一個(gè)商用的通用處理器。該處理器被英特爾命名為4004。4004 采用10 μm 的工藝,在12 mm2 的面積上集成了2300個(gè)晶體管,算力達(dá)60KOPS,已有RISC架構(gòu)雛形。
這款芯片非常有價(jià)值,因?yàn)樗_(kāi)啟了英特爾新的發(fā)展時(shí)代,也使英特爾在集成電路制造領(lǐng)域成為一家偉大的企業(yè)。從更嚴(yán)格的意義上看,著名的摩爾定律是按照英特爾的尺寸微縮來(lái)定義的。
從上世紀(jì)70 年代的4004/10 μm到現(xiàn)在的5 nm技術(shù),大概經(jīng)歷了20 代的制程技術(shù)(如圖1)。如果較粗地進(jìn)行劃分,可分為三個(gè)階段:早期,是物理尺寸微縮的階段,制造技術(shù)的進(jìn)步主導(dǎo)了集成電路的發(fā)展,集成電路從小規(guī)模、中規(guī)模到大規(guī)模、超大規(guī)模。中期,發(fā)展到100 nm以下后,單純地靠尺寸微縮已無(wú)法維持集成電路的高速發(fā)展,這時(shí)依靠物理尺寸微縮和電路架構(gòu)創(chuàng)新,來(lái)共同推動(dòng)集成電路的發(fā)展,此時(shí)集成電路進(jìn)入了SoC的時(shí)代。當(dāng)前及未來(lái),是集成芯片:chiplet-based integration,此部分將在第三部分探討。
圖1 集成電路微縮工藝歷史(以英特爾為例)
CPU在幾何尺寸上的微縮有效的時(shí)期也稱為Dennard微縮定理(尺寸微縮從10μm到0.13μm,功率密度保持不變)的有效時(shí)期。由于工藝制造技術(shù)的進(jìn)步,使CPU的性能快速提升,CPU從4位發(fā)展到64位,還包括了高速緩存、流水線、超標(biāo)量、多發(fā)射體系架構(gòu)等可以在單個(gè)芯片上實(shí)現(xiàn),這是一個(gè)非??焖侔l(fā)展的時(shí)期。
在這些背后,集成電路做了哪些技術(shù)提升?首先是光刻技術(shù)的不斷進(jìn)步。光刻的基本原理是把掩模板的圖形轉(zhuǎn)移到襯底上,它的分辨率由式(1)這個(gè)簡(jiǎn)單的公式?jīng)Q定:
從式(1)可知,提高分辨率有三個(gè)路徑: ①減少光源的波長(zhǎng)λ,光源的波長(zhǎng)從早期的436 nm(汞燈G-line)到今天EUV(極紫外線光源)技術(shù)的7 nm以下;②增加鏡頭的數(shù)值孔徑ΝΑ,從早期的0.33增加到現(xiàn)在的1.36;③減少k1因子。
1.1 光刻技術(shù)。在過(guò)去60 多年的發(fā)展歷程中,光刻技術(shù)從光源、鏡頭的材料與結(jié)構(gòu)、圖形傳遞模式(注:傳統(tǒng)的傳遞方式是透射式,EUV 光刻已經(jīng)采用反射式)多元化創(chuàng)新,特別是對(duì)于今天的步進(jìn)- 掃描的光刻機(jī),最大的單次曝光面積已達(dá)26×33=858 mm2,遇到了“面積墻”。
1.2 晶圓的尺寸不斷增大。單個(gè)晶圓上可以獲得的芯片的數(shù)量越多,越能降低單個(gè)晶體管的制造成本。例如從2英寸到12英寸,單個(gè)基層晶體管的成本下降了8個(gè)數(shù)量級(jí)。這種成本優(yōu)勢(shì)在存儲(chǔ)器里尤為明顯。
1.3 器件的結(jié)構(gòu)變遷
1)平面架構(gòu)
平面器件的結(jié)構(gòu)經(jīng)過(guò)一代代演進(jìn),發(fā)生了非常大的變化。以集成電路的關(guān)鍵技術(shù)——平面MOSFET 為例,教科書上的溝道之間導(dǎo)通的原理越來(lái)越復(fù)雜,以提高驅(qū)動(dòng)的能力,改善靜電,減少材料和工藝帶來(lái)的波動(dòng)性,最終提高產(chǎn)品的性能。
隨著尺寸的微縮,邏輯門的延遲在不斷減少,到了250 nm,Al(鋁)互連+SiO2 絕緣介質(zhì)的技術(shù)節(jié)點(diǎn),互聯(lián)RC 延時(shí)已經(jīng)主導(dǎo)了系統(tǒng)性能,所以就誕生了新的互聯(lián)技術(shù):由雙大馬士革Cu+low k 介質(zhì)的工藝,代替了傳統(tǒng)互聯(lián)。這種技術(shù)首先由IBM 推向量產(chǎn)。1998年,IBM 發(fā)布了首款銅互連微處理器——IBM PowerPC 750,采用0.22 μm 工藝,相較于鋁互連,工作頻率提升33%。
到了100 nm以下之后,Dennard微縮定律停滯。這是由于漏電的增加,很難保持功率密度不變。這時(shí)單純靠幾何尺寸的微縮來(lái)實(shí)現(xiàn)高算力的增長(zhǎng)趨緩,所以計(jì)算機(jī)微處理器朝著多核異構(gòu)以及專用架構(gòu)的方向發(fā)展。此時(shí),集成電路也進(jìn)入了制造和設(shè)計(jì)協(xié)同發(fā)展的時(shí)代。
在這個(gè)階段,制造技術(shù)有哪些變革?首先是由于尺寸不斷微縮,溝道導(dǎo)致的載流子遷移率降低,因此應(yīng)變硅技術(shù)首先得到應(yīng)用,在英特爾奔騰4 處理器90 nm 工藝中量產(chǎn),主頻達(dá)到3 GHz。
隨著尺寸進(jìn)一步微縮,傳統(tǒng)的SiO2 + 多晶硅已經(jīng)行不通了,所以高介電常數(shù)(High-k)+ 金屬柵得到應(yīng)用,使漏電減少10 倍。這一技術(shù)也是英特爾首先在其45 nm工藝Core2/Xeon(酷睿2/ 至強(qiáng))中得到量產(chǎn),隨后在更小的節(jié)點(diǎn)上得到廣泛應(yīng)用。
2)立體架構(gòu)
隨著特征尺寸進(jìn)一步微縮,平面器件結(jié)構(gòu)被拋棄,F(xiàn)inFET取代平面器件,成為主流的器件結(jié)構(gòu)。這一技術(shù)也是由英特爾2012 年首先在其22 nm FinFET工藝中得到驗(yàn)證量產(chǎn),生產(chǎn)Ivy Bridge 處理器。
3)異構(gòu)多核、SoC 時(shí)代
從另一個(gè)角度——架構(gòu)來(lái)看,以CPU 為例,就是從單核發(fā)展到多核,并進(jìn)一步采用了異構(gòu)多核的架構(gòu)、協(xié)處理器、GPU架構(gòu)、專用處理器等來(lái)提高性能。集成電路進(jìn)入了SoC的時(shí)代。
集成電路技術(shù)經(jīng)過(guò)多年的發(fā)展,也遇到了天花板。
以英偉達(dá)的GPU 為例,A100 芯片的單個(gè)芯片面積已達(dá)828 mm2,接近了光刻機(jī)的面積極限858 mm2。
從另一角度來(lái)看,單個(gè)芯片的面積不斷增大,芯片的良率也在急劇下降,這也就意味著SoC 芯片的進(jìn)一步發(fā)展也面臨著諸多的挑戰(zhàn)。
因此,從處理器角度來(lái)看,吳明院士認(rèn)為大致可以分成三個(gè)階段。
早期(1971—2005),制造技術(shù)扮演了重要的角色,單個(gè)die(芯片)的密度支持了更多的性能。單個(gè)die密度從最初的2300 到了26 億個(gè)晶體管。
中期(2005—2020),設(shè)計(jì)和制造的協(xié)同扮演了重要的角色,不僅單個(gè)die 的集成度和面積在不斷增大,使得桌面P 用SoC的晶體管數(shù)量從17億到20億個(gè),而且單die也集成了更多的功能。
當(dāng)前及未來(lái)(2000—未來(lái)),要從三個(gè)維度來(lái)思考未來(lái)的芯片:設(shè)計(jì)、制造、封測(cè)的協(xié)同優(yōu)化,以探索晶圓級(jí)的單芯片的可能。
2 AI驅(qū)動(dòng)的計(jì)算架構(gòu)變革:實(shí)現(xiàn)計(jì)算和存儲(chǔ)的融合
人工智能(AI)算法的能力取決于其網(wǎng)絡(luò)模型的規(guī)模,這就意味著算法對(duì)于算力的需求增長(zhǎng)是非??斓?,每年大概超過(guò)10 倍。但芯片能夠提供的算力增長(zhǎng)大概一年只有1.1~1.5 倍,可見(jiàn)兩者有巨大的差距。
這期間在芯片架構(gòu)上也做過(guò)很多改進(jìn),從CPU到FPGA到GPU,性能上對(duì)于AI 處理有很大的提升,但最終無(wú)論是GPU還是CPU,廣義上都是一個(gè)存算分離的架構(gòu),都需要讀取存儲(chǔ)芯片的值,然后執(zhí)行計(jì)算,也就意味著都面臨著存儲(chǔ)墻和功耗墻這兩個(gè)巨大的挑戰(zhàn)。
因此現(xiàn)在也提出了很多新的架構(gòu):①近存計(jì)算的架構(gòu),即盡可能把處理單元放置在存儲(chǔ)器的附近,以最小化由數(shù)據(jù)傳輸引起的延遲,功耗的損耗;②更激進(jìn)的方法是用存儲(chǔ)來(lái)進(jìn)行計(jì)算,即存內(nèi)計(jì)算(或稱存算一體計(jì)算),這樣就無(wú)需數(shù)據(jù)的搬運(yùn)(如圖2)。
圖2 計(jì)算和存儲(chǔ)架構(gòu)的融合方案
以下介紹這兩種架構(gòu)這些年的發(fā)展。
2.1 近存計(jì)算
是面向特定應(yīng)用領(lǐng)域的一種專用計(jì)算架構(gòu)?,F(xiàn)在產(chǎn)業(yè)上,如華為的達(dá)芬奇,Google TPU 屬于這類架構(gòu)。這類架構(gòu)需要開(kāi)發(fā)專用的互聯(lián)存儲(chǔ)的架構(gòu),并優(yōu)化矩陣運(yùn)算陣列,以實(shí)現(xiàn)大算力、高帶寬、高效率以及低功耗。
但是近存計(jì)算的核心需要依賴一個(gè)非常大的片上存儲(chǔ),通常需要有100MB 以上。然而隨著尺寸的微縮,存儲(chǔ)密度的增加要落后于邏輯器件的增加,這意味著SRAM/DRAM的密度增加是趨于飽和的。
因此,未來(lái)要想使近存計(jì)算的能效以及算力進(jìn)一步提升,除了存儲(chǔ)器本身的進(jìn)步以外,還需要在集成架構(gòu)等方面的創(chuàng)新,例如wafer/die-to-wafer bonding,以及3D-IC、BEOL 晶體管和存儲(chǔ)器的集成等技術(shù)。
與此同時(shí),一系列具有新原理的器件也得到人們的關(guān)注。例如產(chǎn)業(yè)界和學(xué)術(shù)界合作的兩類產(chǎn)品:用阻變存儲(chǔ)器(RRAM)和磁存儲(chǔ)器(STT-MRAM)來(lái)做近存計(jì)算,也取得了非常好的性能。
2.2 存內(nèi)計(jì)算
也就是利用存儲(chǔ)器來(lái)去進(jìn)行計(jì)算。嚴(yán)格地講,今天演變的有數(shù)字和模擬的。
以模擬為例,憶阻器件基于歐姆定理完成一次乘法,基于基爾霍夫定律完成一列累加。因?yàn)檫@樣一個(gè)架構(gòu)不需要數(shù)據(jù)的搬運(yùn),所以可以很好地提高能效。這類新器件發(fā)展非常快,從早期(2015 年)只有在器件和陣列上的概念的演示,到現(xiàn)在有片上的推理以及訓(xùn)練的芯片,其集成度、算力和能效都在快速地提升,未來(lái)也有望支持面向?qū)嶋H應(yīng)用場(chǎng)景的認(rèn)知和學(xué)習(xí)的任務(wù)(如圖3)。
圖3 存算一體的發(fā)展趨勢(shì)
2.3 微電子所在近存計(jì)算架構(gòu)上的進(jìn)展
劉明院士所在的中科院微電子所團(tuán)隊(duì)與國(guó)內(nèi)主要半導(dǎo)體制造商合作,在28和14 nm工藝節(jié)點(diǎn)實(shí)現(xiàn)了阻變存儲(chǔ)器(RRAM)大規(guī)模陣列集成,開(kāi)發(fā)了工業(yè)標(biāo)準(zhǔn)化高性能嵌入式存儲(chǔ)IP,并聯(lián)合產(chǎn)業(yè)界率先實(shí)現(xiàn)量產(chǎn)導(dǎo)入。整體平臺(tái)和國(guó)際一流廠商相比,有相當(dāng)?shù)母?jìng)爭(zhēng)力。
利用該工藝平臺(tái)技術(shù),劉明院士團(tuán)隊(duì)做了一些存內(nèi)計(jì)算的嘗試。首先在電路上做一些工作,來(lái)優(yōu)化、規(guī)避這類存儲(chǔ)器潛在的問(wèn)題,最終實(shí)現(xiàn)了百萬(wàn)級(jí)的規(guī)模,能效在100TOPS/W,也可以支持矩陣向量乘法與矩陣轉(zhuǎn)置等一系列操作。
圖4 集成電路未來(lái)的發(fā)展(來(lái)源:TSMC,ISSCC 2021)
3 新器件、架構(gòu)、集成技術(shù)的展望
集成電路發(fā)展從1958年誕生到今天,已有60 多年的歷史,這期間,無(wú)論是在底層維度,還是架構(gòu)、進(jìn)一步提升集成規(guī)模上,都面臨著非常多的挑戰(zhàn),但是都一步步地走過(guò)來(lái)了,所以只要人的創(chuàng)造力還在,集成電路的未來(lái)還是非??善诘?。
3.1 FinFET的變遷
首先從器件角度看,22 nm時(shí), 英特爾采用了FinFET的器件;但是對(duì)于大部分的代工產(chǎn)品,到了14 nm才是FinFET器件。FinFET也經(jīng)歷了幾代演變,主要是把Fin越做越高,寬度越來(lái)越減?。ㄈ鐖D5),以提高它的密度和性能。
圖5 器件結(jié)構(gòu)的創(chuàng)新
但是發(fā)展到了一定的階段也遇到了瓶頸:5 nm以下技術(shù)節(jié)點(diǎn),較薄Fin很難進(jìn)行外延,也就意味著載流子的遷移率開(kāi)始變差,所以器件結(jié)構(gòu)需要進(jìn)一步地演變。下一步的演進(jìn)就是把Fin水平地倒下來(lái),就成了Nanosheet結(jié)構(gòu),有著更高的密度,可以實(shí)現(xiàn)更好的柵控能力。
這樣的器件結(jié)構(gòu)又遇到了問(wèn)題,就出來(lái)了Forksheet及CFET等不同的結(jié)構(gòu)。這些器件結(jié)構(gòu)都可以更好地利用三維的尺度,向今天的3D NAND來(lái)學(xué)習(xí)。
集成電路在基礎(chǔ)器件方面的尺寸的微縮,廣義上是為了提高密度。而提高密度的同時(shí),器件的微縮帶來(lái)了性能的下降,就要通過(guò)材料和器件結(jié)構(gòu)的創(chuàng)新來(lái)提升性能、降低功耗。
3.2 類腦計(jì)算
從計(jì)算架構(gòu)的角度看,除了傳統(tǒng)的馮式架構(gòu),還有近存計(jì)算和存內(nèi)計(jì)算。如果向生物界學(xué)習(xí),生物腦是怎么工作的?生物腦是功能化的網(wǎng)絡(luò)拓?fù)?,是由稀疏的脈沖的表達(dá),同時(shí)它是大規(guī)模的并行計(jì)算,編碼采用時(shí)空的信息編碼。如果參考生物的腦,類腦芯片應(yīng)該能夠?qū)崿F(xiàn)什么樣的功能?
它應(yīng)該是分布式的存儲(chǔ),多核心的并行,它的神經(jīng)元應(yīng)該是脈沖的神經(jīng)元,它可以實(shí)現(xiàn)高通量的異步的脈沖的路由,稀疏的時(shí)空計(jì)算。如果有這樣的功能,我們就不僅僅實(shí)現(xiàn)了存內(nèi)計(jì)算的減少數(shù)據(jù)搬運(yùn),同時(shí)由于采用了脈沖驅(qū)動(dòng)的異步計(jì)算,可以進(jìn)一步降低功耗,同時(shí)時(shí)空關(guān)聯(lián)的編碼機(jī)制可以降低數(shù)據(jù)的冗余,實(shí)現(xiàn)動(dòng)態(tài)的學(xué)習(xí)(圖6)。
圖6 類腦計(jì)算
進(jìn)一步來(lái)看,未來(lái)如果借鑒于生物腦的結(jié)構(gòu)和信息處理的方式,我們可以進(jìn)一步降低 AI芯片的功耗,提高智能化。
但是這個(gè)領(lǐng)域還處于早期階段,所以無(wú)論是算法、異步電路的設(shè)計(jì)、芯片的架構(gòu)、工具鏈等方面還面臨著諸多挑戰(zhàn)。
3.3 Chiplet(芯粒)
在怎么提高規(guī)模上,我們現(xiàn)在靠傳統(tǒng)的提高密度——當(dāng)然這條路還在持續(xù),但那種增加SoC芯片面積的路似乎已經(jīng)遇到了天花板,我們可以采用另外一條路徑,就是集成芯片:chiplet-based integration(圖7)。
圖7 集成芯片/Chiplet(芯粒)技術(shù)
通過(guò)這種技術(shù),可把復(fù)雜的SoC 芯片首先分解成芯粒(chiplet),然后再采用半導(dǎo)體制造的技術(shù),將不同的芯粒集成在一個(gè)硅基的interposer 上,以實(shí)現(xiàn)更復(fù)雜系統(tǒng)的集成和應(yīng)用。
這種技術(shù)的優(yōu)勢(shì)是可以突破封裝連線的極限;另外,現(xiàn)在一顆復(fù)雜的SoC芯片設(shè)計(jì)的周期是非常漫長(zhǎng)的,也可以突破現(xiàn)在光刻的單die 的面積極限,最終可以實(shí)現(xiàn)異質(zhì)的、非標(biāo)的工藝的集成。
3.3.1 Chipet的歷史
最早Chiplet 概念是由Xilinx(注:2022 年被AMD收購(gòu))在2011 年提出,Xilinx V72000T 采用4 顆相同的FPGA的顆粒,實(shí)現(xiàn)了2.5D集成2層堆疊。到了2016年,英偉達(dá)GP100 采用了2種芯粒(GPU+DRAM×4),共5顆die,也實(shí)現(xiàn)了2.5D集成2層堆疊。2019年華為昇騰910采用了3種不同的芯粒(AI+DRAM+I/O),共6顆die實(shí)現(xiàn)了2.5D集成,也是2 層堆疊。2021年,英特爾Ponte Vecchio是一個(gè)非常神奇的結(jié)構(gòu),采用6種芯粒(AI+SRAM+DRAM+Base+Bridge), 共有47顆芯粒,實(shí)現(xiàn)了3D的形成,是一個(gè)真正的3 層的堆疊。
可見(jiàn),經(jīng)過(guò)10 年的發(fā)展,集成芯片已經(jīng)成為高性能計(jì)算芯片的一種關(guān)鍵技術(shù),并且在朝著3D 多層堆疊、更多種類的芯粒、更大集成規(guī)模的趨勢(shì)發(fā)展。
3.3.2 我國(guó)的部分研究進(jìn)展
關(guān)于之前提到的存內(nèi)計(jì)算,優(yōu)勢(shì)是能耗非常低,但也有顯而易見(jiàn)的缺點(diǎn)——算力不夠。如果借助于集成芯片技術(shù),是否可以維持它的低能效,同時(shí)提高它的算力?劉明院士所在的復(fù)旦大學(xué)的團(tuán)隊(duì)研發(fā)的芯粒存算一體集成芯片,基于2.5D集成扇出工藝,實(shí)現(xiàn)了算力和芯粒數(shù)量的同步增長(zhǎng)(如圖8)。
圖8 可擴(kuò)展的存算一體集成芯片
2023 年起,國(guó)家自然科學(xué)基金委批復(fù)“集成芯片前沿技術(shù)科學(xué)基礎(chǔ)”重大研究計(jì)劃立項(xiàng)。這個(gè)項(xiàng)目圍繞三個(gè)科學(xué)問(wèn)題:①芯粒的數(shù)學(xué)描述和組合優(yōu)化理論,②大規(guī)模芯粒的并行架構(gòu)和設(shè)計(jì)自動(dòng)化,③芯粒尺度的多物理場(chǎng)耦合機(jī)制和界面理論。
4 結(jié)束語(yǔ)
“什么時(shí)候摩爾定律終結(jié)?”劉明院士看到過(guò)無(wú)數(shù)的回答,也自問(wèn)過(guò)這個(gè)問(wèn)題該怎么回答。她最喜歡的答案是Mike Mayberry(筆者注:英特爾的首席技術(shù)官、實(shí)驗(yàn)室總監(jiān),原英特爾技術(shù)與生產(chǎn)事業(yè)部副總裁兼元器件研究總監(jiān))的回答:只要人類還有想法,就總能夠使摩爾定律持續(xù)下去。
盡管我們今天面臨了各種巨大挑戰(zhàn),包括底層的器件層面,電路架構(gòu)層面,以及如何提高規(guī)模這種集成度的層面。但隨著從底層器件、制造技術(shù)、架構(gòu)以及基于chiplet的集成等不同維度的持續(xù)創(chuàng)新,摩爾定律一定能走下去。因?yàn)樗緛?lái)就不是一個(gè)科學(xué)定律,只是一個(gè)經(jīng)濟(jì)觀察的規(guī)律。
今天晶體管的數(shù)量是每個(gè)package(封裝)里是100B,預(yù)計(jì)2035 年增加到1T。集成電路數(shù)量的大幅提升也必將推動(dòng)計(jì)算進(jìn)入Zetta 時(shí)代(如圖9)。
圖9 浮點(diǎn)運(yùn)算次數(shù)與存儲(chǔ)的路線圖
用Robert Noyce(注:Fairchild 和英特爾聯(lián)合創(chuàng)始人,商用DRAM和微處理器聯(lián)合發(fā)明人)的話來(lái)結(jié)束這次講演:不要被歷史所拖累。去做一些美妙的事情吧。
(本文來(lái)源于《EEPW》2024.3)
評(píng)論