美國(guó)升級(jí)芯片出口管制措施 AI時(shí)代算力才是硬道理
10月17日,美國(guó)商務(wù)部工業(yè)和安全局(BIS)更新了“先進(jìn)計(jì)算芯片和半導(dǎo)體制造設(shè)備出口管制規(guī)則”,對(duì)2022年10月7日規(guī)則的修改和強(qiáng)化。該規(guī)則尚處于公示期,將在30天后生效。
本文引用地址:http://cafeforensic.com/article/202310/451819.htm新規(guī)則將限制英偉達(dá)對(duì)中國(guó)市場(chǎng)芯片銷售,稱更嚴(yán)格的控制針對(duì)英偉達(dá)A800和H800芯片,在25天內(nèi)審查以確定是否需要許可證才能向中國(guó)出售這類芯片。同時(shí),還有13家中國(guó)GPU企業(yè)被列入實(shí)體名單,其中包括摩爾線程、壁仞科技等。
對(duì)此,英偉達(dá)回應(yīng)稱不會(huì)對(duì)其收益產(chǎn)生立即的實(shí)質(zhì)性影響,但可能會(huì)對(duì)其長(zhǎng)期發(fā)展造成損害。此前,英偉達(dá)在二季度財(cái)報(bào)電話會(huì)議上披露,數(shù)據(jù)中心方面,中國(guó)的銷售額占20-25%。
對(duì)于壁仞科技和摩爾線程來(lái)說(shuō),被列入實(shí)體清單意味著如果無(wú)法獲得許可,不僅無(wú)法進(jìn)口美國(guó)的技術(shù)或產(chǎn)品,也無(wú)法使用基于美國(guó)技術(shù)或設(shè)備的晶圓廠為其代工芯片。
升級(jí)芯片出口管制措施
根據(jù)2022年的規(guī)定,美國(guó)禁止出口超過(guò)兩個(gè)標(biāo)準(zhǔn)的芯片:一個(gè)是功率標(biāo)準(zhǔn),另一個(gè)是“互連帶寬”即芯片之間的通信速度標(biāo)準(zhǔn)。而根據(jù)新規(guī),將用“性能密度”(performance density)即每平方毫米的浮點(diǎn)運(yùn)算次數(shù)來(lái)取代通信速度,阻止企業(yè)尋找變通方案。
例如,英偉達(dá)為了不違反美國(guó)出口限制規(guī)定針對(duì)中國(guó)市場(chǎng)推出了特供版芯片 —— 限制通信速度的A800/H800(處理速度約為A100/H100的70%),雖然保留了強(qiáng)?的計(jì)算能?,但訓(xùn)練AI大模型的時(shí)間將增加。不過(guò)即便如此,A800/H800在中國(guó)市場(chǎng)仍然被認(rèn)為是用于AI訓(xùn)練/推理的最佳數(shù)據(jù)中心芯片。同樣的還有英特爾針對(duì)中國(guó)市場(chǎng)推出的特供AI處理器Gaudi2等。
修訂后的出口管制措施將禁止美國(guó)企業(yè)向中國(guó)出售運(yùn)行速度達(dá)到300TFLOPS(即每秒可計(jì)算300萬(wàn)億次運(yùn)算)及以上的數(shù)據(jù)中心芯片。如果芯片的性能密度達(dá)到或超過(guò)每平方毫米370GFLOPS,速度在150-300TFLOPS之間的芯片將被禁止銷售。以上述速度運(yùn)行但性能密度較低的芯片則屬于“灰色地帶”,這意味著企業(yè)必須向美國(guó)政府通報(bào)對(duì)華銷售的情況。
有分析稱,新舉措可能還包括英偉達(dá)的旗艦游戲顯卡RTX4090。而最新消息顯示,美國(guó)商務(wù)部對(duì)出口管制政策做出了澄清,該政策針對(duì)4090顯卡的禁令是允許消費(fèi)性應(yīng)用進(jìn)行出口豁免的。這意味著4090顯卡仍可以在中國(guó)(包括香港和澳門)的消費(fèi)市場(chǎng)進(jìn)行零售,但不允許用于商業(yè)和生產(chǎn)用途。
新措施為了防止企業(yè)通過(guò)Chiplet的芯片堆疊技術(shù)繞過(guò)芯片限制,還將新規(guī)擴(kuò)大到另外40多個(gè)國(guó)家出口先進(jìn)的許可要求,以防止A100和H100系列等AI芯片從海外其他地區(qū)輾轉(zhuǎn)出口到中國(guó);另外,對(duì)中國(guó)以外的21個(gè)國(guó)家提出了芯片制造設(shè)備的許可要求,并擴(kuò)大了禁止進(jìn)入這些國(guó)家的設(shè)備清單,以限制中國(guó)14nm以下先進(jìn)芯片的制造能力。
此次出口管制新規(guī)還增加了很多細(xì)分領(lǐng)域的物項(xiàng)清單,包括ASIC(應(yīng)用型專用集成電路)、FPGA(現(xiàn)場(chǎng)可編程邏輯門陣列)、SRAM存算一體芯片、Chiplet、多重曝光技術(shù)、NPU(神經(jīng)網(wǎng)絡(luò)處理器)等,這些都在美國(guó)的管制范圍內(nèi)。
如果只限制峰值性能,芯片企業(yè)還可以針對(duì)中國(guó)市場(chǎng)推出性能功耗低的小體積產(chǎn)品,再通過(guò)高速連接的方式組成集群,最終實(shí)現(xiàn)預(yù)期中的集群性能。但芯片性能密度的條款把這條路給堵住了,這次新規(guī)將填補(bǔ)之前芯片限制的“漏洞”,將一些原本剛好符合之前技術(shù)參數(shù)的AI芯片納入限制范圍,同時(shí)阻止中國(guó)企業(yè)通過(guò)海外子公司購(gòu)買美國(guó)AI芯片。
在管制芯片企業(yè)出口時(shí),美國(guó)企業(yè)的業(yè)績(jī)同樣也會(huì)受到影響,中國(guó)市場(chǎng)長(zhǎng)期是美國(guó)芯片企業(yè)在美國(guó)以外的最大市場(chǎng)。2022年,英偉達(dá)、英特爾、AMD三家主要數(shù)據(jù)中心芯片在中國(guó)大陸地區(qū)(含中國(guó)香港)營(yíng)收占比分別為21.4%、27.2%、22.1%。
值得注意的是,中國(guó)臺(tái)灣地區(qū)的企業(yè),如華碩、技嘉、微星等,大量最終客戶仍在中國(guó)大陸地區(qū)。如果按照中國(guó)大陸地區(qū)、中國(guó)臺(tái)灣地區(qū)兩個(gè)市場(chǎng)合計(jì)統(tǒng)計(jì),英偉達(dá)、英特爾、AMD在中國(guó)市場(chǎng)的營(yíng)收占比分別為,47.3%、40.3%、32.1%。
AI時(shí)代算力需求指數(shù)級(jí)增長(zhǎng)
自2022年11月底以來(lái),美國(guó)初創(chuàng)公司OpenAI發(fā)布的人工智能對(duì)話聊天機(jī)器人ChatGPT迅速走紅,僅用5天注冊(cè)用戶數(shù)就超過(guò)百萬(wàn),并在2個(gè)月內(nèi)破億,成為史上增長(zhǎng)最快的消費(fèi)類應(yīng)用。
以ChatGPT為代表的AI大模型開(kāi)啟了新一輪生產(chǎn)力革新的科技浪潮,人與機(jī)器不再局限于簡(jiǎn)單的指令式交互,機(jī)器可以理解復(fù)雜的意圖,這顛覆過(guò)去互聯(lián)網(wǎng)發(fā)展中的許多業(yè)態(tài),也對(duì)實(shí)體經(jīng)濟(jì)和產(chǎn)業(yè)發(fā)展產(chǎn)生深遠(yuǎn)的影響。因此,GPT被微軟創(chuàng)始人比爾·蓋茨評(píng)價(jià)為自圖形界面以來(lái)最重要的技術(shù)進(jìn)步,被英偉達(dá)創(chuàng)始人黃仁勛稱作是人工智能領(lǐng)域的iPhone時(shí)刻。
當(dāng)所有人都沉浸在對(duì)超大語(yǔ)言模型那令人驚嘆的“生命力”的時(shí)候,AI這個(gè)存在了數(shù)十年的概念,已然成為未來(lái)幾十年人類社會(huì)發(fā)展的核心變量。而AI的背后是算力、數(shù)據(jù)、算法的有機(jī)結(jié)合。
ChatGPT的爆火本質(zhì)上是人類在AI領(lǐng)域軟件(數(shù)據(jù)、算法)、硬件(算力)綜合能力大幅提升以后的一次爆發(fā)式體現(xiàn)。隨著云計(jì)算的廣泛應(yīng)用,特別是深度學(xué)習(xí)成為當(dāng)前AI研究和運(yùn)用的主流方式,AI對(duì)于算力的要求不斷快速提升。
我們?cè)谡凙I芯片性能的時(shí)候,首先想到的一個(gè)指標(biāo)就是算力。算力是算法和數(shù)據(jù)的基礎(chǔ)設(shè)施,支撐著算法和數(shù)據(jù),是指計(jì)算機(jī)系統(tǒng)能夠完成的計(jì)算任務(wù)量,通常用來(lái)描述對(duì)數(shù)據(jù)的處理能力,采用FLOPS(Floating Point Operations Per Second)表示每秒鐘能夠完成的浮點(diǎn)運(yùn)算或指令數(shù)。在AI發(fā)展的最初幾十年里,所需的計(jì)算能力是按照摩爾定律增長(zhǎng)的 —— 大約20個(gè)月的時(shí)間翻一倍。
1950年代,美國(guó)數(shù)學(xué)家Claude Shannon訓(xùn)練了一個(gè)名為Theseus的機(jī)器老鼠,使其能在迷宮中導(dǎo)航并記住路徑,Theseus的構(gòu)建是基于40FLOPS;2012年,由AlexNet(一個(gè)圖像識(shí)別AI)標(biāo)志著深度學(xué)習(xí)時(shí)代的開(kāi)始,算力翻倍時(shí)間大大縮短到了六個(gè)月;2015年,AlphaGo的出現(xiàn)帶來(lái)了大規(guī)模AI模型時(shí)代,它的計(jì)算需求比以前所有的AI系統(tǒng)都要大。
比于傳統(tǒng)AI算法,大模型在參數(shù)規(guī)模上得到大幅提升,參數(shù)一般達(dá)到千億甚至萬(wàn)億規(guī)模。例如OpenAI的GPT系列,最開(kāi)始的GPT-1擁有1.17億個(gè)參數(shù),到GPT-3的參數(shù)已經(jīng)到達(dá)1750億個(gè),而相應(yīng)的能力也得到大幅提升。
AI算法模型對(duì)于算力的巨大需求,推動(dòng)了今天芯片業(yè)的發(fā)展。據(jù)OpenAI測(cè)算,2012年開(kāi)始,全球AI訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)增長(zhǎng),平均每3.43個(gè)月便會(huì)翻一倍,目前計(jì)算量已擴(kuò)大30萬(wàn)倍,遠(yuǎn)超算力增長(zhǎng)速度。
一般的說(shuō),AI芯片被稱為AI加速器或計(jì)算卡,即專門針對(duì)AI算法做了特殊加速設(shè)計(jì)的芯(其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé));而從廣義范疇上講,面向AI計(jì)算應(yīng)用的芯片都可以稱為AI芯片。這讓算力領(lǐng)域的硬件巨頭們?cè)僖淮巫哌M(jìn)人們的視線,CPU、GPU、FPGA、ASIC等底層硬件中包含的算力價(jià)值將被重塑。
目前GPU是AI算力的主要選擇,因?yàn)镚PU最初是為了圖形渲染而設(shè)計(jì)的,而圖形渲染涉及的計(jì)算是高度并行化的,這種并行化的特性使GPU非常適合進(jìn)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)這樣的大規(guī)模數(shù)據(jù)并行計(jì)算。GPU的并行計(jì)算能力可大幅提升計(jì)算效率,可大幅縮短AI算法的訓(xùn)練和推理時(shí)間,成為AI時(shí)代的算力核心。
并且渲染過(guò)程具體來(lái)說(shuō)就是幾何點(diǎn)位置和顏色的計(jì)算,這兩者的計(jì)算在數(shù)學(xué)上都是用四維向量和變換矩陣的乘法,所以GPU超過(guò)80%部分為運(yùn)算單元,具有例如張量核心和矩陣乘法等計(jì)算單元,相比較下,CPU僅有20%為運(yùn)算單元。因此GPU可以更快地執(zhí)行常見(jiàn)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)操作:如卷積和矩陣乘法。這些計(jì)算單元與通用計(jì)算單元相比,具有更高的效率和更快的速度。
在進(jìn)行深度學(xué)習(xí)等計(jì)算時(shí),還需要大量的內(nèi)存和高速的內(nèi)存帶寬來(lái)存儲(chǔ)和處理海量數(shù)據(jù)。GPU相比于其他硬件(如CPU),具有更高的內(nèi)存帶寬和更大的內(nèi)存容量,可以更有效地存儲(chǔ)和處理數(shù)據(jù),從而提高計(jì)算速度。
現(xiàn)階段,隨著例如英偉達(dá)A100、H100等型號(hào)產(chǎn)品的發(fā)布,GPU在算力方面的優(yōu)勢(shì)相較于其他硬件具有較大優(yōu)勢(shì)。GPU的工作也從一開(kāi)始的圖形處理逐步轉(zhuǎn)化為計(jì)算,在深度學(xué)習(xí)的訓(xùn)練階段其性能更是無(wú)所匹敵,成為最適合支撐AI訓(xùn)練和學(xué)習(xí)的硬件,應(yīng)用于數(shù)據(jù)中心加速和部分智能終端領(lǐng)域。
據(jù)JPR統(tǒng)計(jì),2023年一季度英偉達(dá)GPU市占率達(dá)84%,是GPU市場(chǎng)的主導(dǎo)者。英偉達(dá)1999年首次提出GPU概念,2006年推出CUDA運(yùn)算平臺(tái),2023年5月發(fā)布超級(jí)計(jì)算機(jī)DGXGH200,其算力規(guī)模達(dá)到1Eflops,支持萬(wàn)億參數(shù)AI大模型訓(xùn)練,為巨型人工智能模型提供線性可擴(kuò)展性。英偉達(dá)基于其GPU與CUDA等生態(tài)體系的構(gòu)建,已成為AI算力關(guān)鍵供應(yīng)商。
· 至于CPU,由于GPU無(wú)法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。CPU也可單獨(dú)作為AI芯片使用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,雖然兼容性好但比較浪費(fèi),當(dāng)需要大量的處理類型統(tǒng)一的數(shù)據(jù)時(shí),可調(diào)用GPU進(jìn)行并行計(jì)算。
· 而FPGA具有低能耗、高性能以及可編程等特性,相對(duì)于CPU與GPU有明顯的性能或者能耗優(yōu)勢(shì),但對(duì)使用者要求高。通過(guò)FPGA可以有效降低研發(fā)調(diào)試成本,提高市場(chǎng)響應(yīng)能力,推出差異化產(chǎn)品,科技巨頭紛紛布局云計(jì)算+FPGA的平臺(tái)。隨著FPGA的開(kāi)發(fā)者生態(tài)逐漸豐富,適用的編程語(yǔ)言增加,F(xiàn)PGA運(yùn)用會(huì)更加廣泛。
· ASIC可以更有針對(duì)性地進(jìn)行硬件層次的優(yōu)化,從而獲得更好的性能、功耗比。但是ASIC芯片的設(shè)計(jì)和制造需要大量的資金、較長(zhǎng)的研發(fā)周期和工程周期,而且深度學(xué)習(xí)算法仍在快速發(fā)展,若深度學(xué)習(xí)算法發(fā)生大的變化,F(xiàn)PGA能很快改變架構(gòu),適應(yīng)最新的變化,ASIC類芯片一旦定制則難于進(jìn)行修改。
· AI芯片還可以用NPU,近年來(lái)NPU異軍突起,同樣的芯片面積下,NPU能夠做到幾十倍于GPU的AI性能。英偉達(dá)也在近幾代的GPU中塞了不少Tensor Core,但如果使用NPU的話,可以并不完全依賴英偉達(dá)的CUDA生態(tài),所以英特爾、AMD乃至中國(guó)的很多企業(yè)都分了一杯羹。
論性能,華為的NPU在AI性能上已經(jīng)不遜色于英偉達(dá)的產(chǎn)品,目前缺的就是“生態(tài)”。只有參與的開(kāi)發(fā)者夠多,生態(tài)才能建立,但是轉(zhuǎn)型都是存在“陣痛的”,意味著大量代碼的重構(gòu)。
總的來(lái)看,目前GPU是市場(chǎng)上用于AI計(jì)算最成熟應(yīng)用最廣泛的通用型芯片,短期將延續(xù)AI芯片的領(lǐng)導(dǎo)地位。在算法技術(shù)和應(yīng)用層次尚淺時(shí)期,其強(qiáng)大的計(jì)算能力、較低的研發(fā)成本和通用性將繼續(xù)占領(lǐng)AI芯片的主要市場(chǎng)份額。
評(píng)論