GPU如何主宰人工智能和計算

作者：時間：2024-04-03 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

三十年前，CPU 和其他專用處理器處理幾乎所有計算任務(wù)。那個時代的顯卡可以加速 Windows 和應(yīng)用程序中 2D 形狀的繪制，但沒有其他用途。

本文引用地址：http://cafeforensic.com/article/202404/457161.htm

快進到今天，GPU 已經(jīng)成為行業(yè)中最主要的芯片之一。

如今，GPU 不再僅僅是用于圖形處理的設(shè)備——實際上機器學(xué)習(xí)和高性能計算已經(jīng)嚴重依賴于這個看似微不足道的 GPU 的處理能力。讓我們一起探討這一芯片是如何從一個樸素的像素處理器演變成具有強大浮點計算能力的核心設(shè)備的。

起初 CPU 主宰一切

讓我們回到 20 世紀 90 年代末。高性能計算領(lǐng)域，涵蓋了超級計算機上的科學(xué)研究、標準服務(wù)器上的數(shù)據(jù)處理以及工作站上的工程和設(shè)計任務(wù)，完全依賴于兩種類型的 CPU：1）專為某一特定目的而設(shè)計的專用處理器；2）來自 AMD、IBM 或英特爾的現(xiàn)成芯片。

ASCI 紅色超級計算機是 1997 年最強大的超級計算機之一，由 9,632 顆英特爾奔騰 II Overdrive 處理器組成（如下圖所示）。每個處理器單元運行在 333 MHz 的頻率下，系統(tǒng)的理論峰值計算性能達到了超過 3.2 TFLOPS（每秒萬億次浮點運算）。

來源：維基百科

在本文中，我們經(jīng)常會提及 TFLOPS，因此有必要花一些時間來解釋一下它的含義。在計算機科學(xué)中，浮點數(shù)（floating points，簡稱浮點）是表示非整數(shù)值的數(shù)據(jù)類型，例如 6.2815 或 0.0044。整數(shù)值常用于進行控制計算機及其上運行的任何軟件所需的計算。

浮點數(shù)對于精度至關(guān)重要的情況至關(guān)重要，尤其是與科學(xué)或工程相關(guān)的任何事物。即使是一個簡單的計算，比如求圓的周長，也至少涉及到一個浮點數(shù)值。

多年來，CPU 一直擁有用于在整數(shù)和浮點數(shù)上執(zhí)行邏輯運算的單獨電路。在前文提到的奔騰 II 過載版中，它可以在每個時鐘周期內(nèi)執(zhí)行一個基本的浮點操作（乘法或加法）。理論上，這就是為什么 ASCI Red 的浮點峰值性能為 9,632 個 CPU x 3.33 億個時鐘周期 x 1 操作/周期 = 3,207,456 百萬 FLOPS。

這些數(shù)據(jù)是基于理想條件（例如，使用最簡單的指令處理適合緩存的數(shù)據(jù)），在現(xiàn)實中很難實現(xiàn)。然而，它們?yōu)樵u估系統(tǒng)潛在性能提供了一個很好的參考。

其他超級計算機也擁有類似數(shù)量的標準處理器——位于勞倫斯利弗莫爾國家實驗室的藍色太平洋使用了 5808 個 IBM 的 PowerPC 604e 芯片，洛斯阿拉莫斯國家實驗室的藍色山脈（見上圖）容納了 6144 個 MIPS Technologies R1000 芯片。

要達到太浮點運算級別，需要數(shù)千個 CPU，以及大量的 RAM 和硬盤存儲作為支持。因為這些設(shè)備的數(shù)學(xué)需求如此之高，直到現(xiàn)在這種情況仍然存在。

當我們在學(xué)校的物理、化學(xué)和其他學(xué)科中第一次接觸方程式時，一切都是一維的。換句話說，我們對距離、速度、質(zhì)量、時間等使用單一的數(shù)字。然而，為了準確地建模和模擬現(xiàn)象，需要更多的維度，數(shù)學(xué)進入了向量、矩陣和張量的領(lǐng)域。

這些在數(shù)學(xué)中被視為單一實體，但包含多個值，這意味著任何進行計算的計算機需要同時處理大量數(shù)字。考慮到當時的 CPU 每周期只能處理一到兩個浮點數(shù)，因此需要數(shù)千個 CPU。

SIMD 加入戰(zhàn)局：MMX，3DNow! 和 SSE

1997 年，英特爾更新了 Pentium CPU 系列，引入了一項名為 MMX 的技術(shù)擴展——一組在核心內(nèi)部利用八個附加寄存器的指令。每個寄存器被設(shè)計成存儲一到四個整數(shù)值。這種系統(tǒng)允許處理器在多個數(shù)值上同時執(zhí)行單條指令，這種方法更為人所熟知的是 SIMD（單指令，多數(shù)據(jù)）。

一年后，AMD 推出了自己的版本，名為 3DNow!。由于寄存器可以存儲浮點值，這使得 3DNow! 明顯優(yōu)于 MMX。又過了一年，英特爾在奔騰 III 中引入了 SSE（流式單指令多數(shù)據(jù)擴展），解決了 MMX 中的問題。

3DNow! 首次亮相于 AMD K6-2 CPU。來源：Fritzchens Fritz

隨著時間推移，高性能計算機設(shè)計者們已經(jīng)能使用可高效處理向量數(shù)學(xué)的標準處理器。

經(jīng)過千百萬次的擴展，這些處理器可以同樣高效地處理矩陣和張量。盡管取得了這一進步，但超級計算機領(lǐng)域仍更青睞舊式或?qū)Ｓ眯酒驗檫@些新擴展并未專為此類任務(wù)而設(shè)計。此外，還有另一種比 AMD 或 Intel 的任何 CPU 更擅長 SIMD 處理的迅速流行處理器：GPU。

在圖形處理器的早期，CPU 處理場景中組成三角形的計算（因此，AMD 為其 SIMD 實現(xiàn)使用了 3DNow! 這個名字）。然而，像素的著色和紋理處理完全由 GPU 負責(zé)，并且這項工作的許多方面涉及到矢量數(shù)學(xué)。

20 多年前最好的消費級顯卡，如 3dfx Voodoo5 5500 和 Nvidia GeForce 2 Ultra，都是出色的 SIMD 設(shè)備。然而，它們是為制作游戲的 3D 圖形而創(chuàng)建，沒有其他用途。即使在專業(yè)市場上的顯卡也完全專注于渲染。

來源: The Time Trekking Technologist

ATI 的 ATI FireGL 3 配備了兩個 IBM 芯片（一個 GT1000 幾何引擎和一個 RC1000 柵格化器），高達 128 MB 的 DDR-SDRAM，以及聲稱的 30 GFLOPS 的處理能力。然而，所有這些都是為了加速像 3D Studio Max 和 AutoCAD 這樣的程序中的圖形渲染，使用的是 OpenGL 渲染 API。

那個時代的 GPU 并沒有配備用于其他用途的功能，因為將 3D 對象變換并轉(zhuǎn)換為顯示器圖像的過程并不涉及大量的浮點運算。實際上，其中很大一部分是整數(shù)級別的運算，而且在顯卡開始在整個管道大量使用浮點值之前還需要幾年時間。

其中最早的一個是 ATI 的 R300 處理器，它擁有 8 個獨立的像素管線，可以以 24 位浮點精度處理所有數(shù)學(xué)運算。遺憾的是，除了圖形處理之外，無法利用其強大的性能——硬件和相關(guān)軟件都完全以圖像為中心。

計算機工程師并非對于 GPU 具有大量 SIMD 能力但缺乏將其應(yīng)用于其他領(lǐng)域的途徑一無所知。令人驚訝的是，正是一款游戲主機向我們展示了如何解決這個棘手問題。

統(tǒng)一的新時代

2005 年 11 月，微軟的 Xbox 360 上市，搭載了一款由 IBM 設(shè)計制造、基于 PowerPC 架構(gòu)的 CPU，以及一款由 ATI 設(shè)計、由 TSMC 制造的 GPU。

這款名為 Xenos 的顯卡芯片非常特殊，因為其布局完全摒棄了傳統(tǒng)的分離頂點和像素管道的方法。

Xenos 激發(fā)了一種至今仍在使用的設(shè)計范例的出現(xiàn)。

來源：Oleg Kashirin

取而代之的是一個由三組 SIMD 陣列組成的簇。具體來說，每個簇包含 16 個向量處理器，每個處理器包含 5 個數(shù)學(xué)單元。這種布局使每個陣列能夠在一個周期內(nèi)同時對 80 個浮點數(shù)據(jù)值執(zhí)行來自線程的兩個順序指令。

統(tǒng)一著色器架構(gòu)使得每個陣列都能處理任何類型的著色器。盡管這使芯片的其他方面變得更為復(fù)雜，但 Xenos 引發(fā)的設(shè)計模式至今仍在使用。在 500 MHz 的時鐘速度下，整個集群理論上可以實現(xiàn) 240 GFLOPS（500 x 16 x 80 x 2）的處理速度，用于執(zhí)行三個線程的乘-加指令。

為了讓這個數(shù)字更具規(guī)模感，我們可以將其與 10 年前世界頂級超算的速度進行對比。例如，1994 年位居世界超算之首的桑迪亞國家實驗室的 Aragon XP/S140，其擁有 3,680 個英特爾 i860 CPU，峰值達到了 184 GFLOPS。芯片發(fā)展的步伐迅速超過了這臺機器，但 GPU 的情況也是如此。

多年來，CPU 已經(jīng)將 SIMD 陣列集成到自己的設(shè)計中，例如，英特爾最早的奔騰 MMX 就擁有一個專用單元來處理向量上的命令，其中包括多達 8 個 8 位整數(shù)。到 Xbox 的 Xenos 在全球家庭中應(yīng)用的時候，這樣的單元至少已經(jīng)擴大了兩倍，但相較于 Xenos 中的單元，它們?nèi)匀伙@得很小。

來源：Fritzchens Fritz

當消費級顯卡開始采用統(tǒng)一著色器架構(gòu)的 GPU 時，它們已經(jīng)具有比 Xbox 360 圖形芯片更高的處理速率。

英偉達的 G80（如上圖所示），用于 GeForce 8800 GTX（2006）的理論峰值達到了 346 GLFOPS，而 ATI 的 R600 在 Radeon HD 2900 XT（2007）上宣稱達到了 476 GLFOPS。

兩大顯卡制造商很快在其專業(yè)型號上利用這種計算能力。雖然價格昂貴，但 ATI FireGL V8650 和 Nvidia Tesla C870 非常適合高端科學(xué)計算機。然而，在最高水平上，全球的超級計算機仍繼續(xù)依賴標準 CPU。事實上，在 GPU 開始出現(xiàn)在最強大的系統(tǒng)之前還需要過去幾年時間。

那么，鑒于 GPU 顯然能提供顯著的處理速度，為什么它們一開始就沒有被使用呢？

超級計算機及類似系統(tǒng)的設(shè)計、建造和運行成本極高。多年來，它們都是圍繞著大量 CPU 構(gòu)建的，因此，一夜之間整合其他處理器并非易事。這樣的系統(tǒng)需要進行徹底的規(guī)劃和初步的小規(guī)模測試，然后逐步增加芯片數(shù)量。

其次，要讓所有這些組件在軟件方面協(xié)調(diào)運行并非易事，這對當時的 GPU 來說是一個重大的弱點。盡管 GPU 已經(jīng)具有高度可編程性，但之前為它們提供的軟件還是相當有限的。

Microsoft 的 HLSL（高級著色器語言），英偉達的 Cg 庫和 OpenGL 的 GLSL 使訪問圖形芯片的處理能力變得簡單，盡管這僅用于渲染。

所有這些都隨著統(tǒng)一著色器架構(gòu) GPU 的出現(xiàn)而發(fā)生了改變。

在 2006 年，當時已成為 AMD 子公司的 ATI 和英偉達發(fā)布了旨在將此功能用于不僅僅是圖形處理的軟件工具包，它們分別使用名為 CTM（Close To Metal）和 CUDA（計算統(tǒng)一設(shè)備架構(gòu)）的 API。

科學(xué)和數(shù)據(jù)處理領(lǐng)域的研究人員真正需要的是一個全面的解決方案——一個能將龐大的 CPU 和 GPU 陣列（通常稱為異構(gòu)平臺）作為一個由眾多計算設(shè)備組成的單一實體。

2009 年，他們的需求得到了滿足。最初，OpenCL 是由蘋果公司開發(fā)的，后來由接管 OpenGL 的 Khronos Group 發(fā)布。如今，OpenCL 已成為在日常圖形外使用 GPU 的事實上的統(tǒng)一軟件平臺。而當時人們稱這個領(lǐng)域為 GPGPU，即指在 GPU 上進行通用計算，這個概念由 Mark Harris 首創(chuàng)。

GPU 加入計算競賽

與龐大的科技評論世界不同，全球并沒有數(shù)百名評論家在測試超級計算機的性能聲明。然而，自 20 世紀 90 年代初以來，德國曼海姆大學(xué)的一個持續(xù)進行的項目就旨在實現(xiàn)這一目標。

被稱為 TOP500 的組織，每年發(fā)布兩次全球十大最強大超級計算機的排名榜單。

2010 年榜單上首次出現(xiàn)了裝備 GPU 的計算機，這兩臺來自中國的系統(tǒng)分別是星云和天河一號。星云使用了英偉達的 Tesla C2050（實質(zhì)上是 GeForce GTX 470，如下圖所示），而天河一號則采用了 AMD 的 Radeon HD 4870 芯片。前者具有理論峰值 2,984 TFLOPS。

來源: Fritchens Fritz

在早期高端 GPGPU 時代，英偉達成為了配置計算巨擘的首選廠商，并非因為性能上的優(yōu)勢——通常 AMD 的 Radeon 顯卡具有更高的處理性能——而是因為軟件支持。CUDA 得到了快速的發(fā)展，而在 AMD 推出合適的替代方案之前，還需要幾年的時間，這就促使用戶選擇使用 OpenCL。

然而，英偉達并沒有完全壟斷市場。英特爾的 Xeon Phi 處理器也試圖在市場上占有一席之地。這些處理器源自一個被終止的名為 Larrabee 的 GPU 項目，它構(gòu)成了一個奇特的 CPU-GPU 混合體。Xeon Phi 處理器由多個類似 Pentium 的核心（即 CPU 部分）組成，并搭配了大型浮點運算單元（即 GPU 部分）。

對 Nvidia Tesla C2050 內(nèi)部的檢查展示了 14 個被稱為流式多處理器（SMs）的模塊，這些模塊通過緩存和中央控制器進行劃分。每個模塊中包含 32 組邏輯電路（英偉達稱之為 CUDA 核心），分別負責(zé)執(zhí)行整數(shù)值和浮點數(shù)的所有數(shù)學(xué)運算。對于后者，每個核心每個時鐘周期可以處理單精度（32 位）的一次 FMA（融合乘加）操作；而雙精度（64 位）操作至少需要兩個時鐘周期。

Xeon Phi 芯片中的浮點處理單元（如下圖所示）似乎有相似之處，但每個核心處理的數(shù)據(jù)量只有 C2050 中一個 SM 的一半。盡管如此，與特斯拉的 14 個 SM 相比，單個 Xeon Phi 處理器有 32 個重復(fù)的核心，因此每個時鐘周期總體上可以處理更多的數(shù)據(jù)。然而，英特爾首次發(fā)布的芯片更像是一個原型，并未完全發(fā)揮其潛力。相較而言，英偉達的產(chǎn)品運行速度更快、功耗更低，并最終被證明更勝一籌。

在 AMD、英特爾和英偉達三家公司的 GPGPU 競爭中，這成為了一個反復(fù)出現(xiàn)的主題。其中一個公司的產(chǎn)品可能在處理核心數(shù)量上占優(yōu)勢，而另一個公司的產(chǎn)品可能在時鐘速度上更快，或擁有更強大的緩存系統(tǒng)。

CPU 在各種類型的計算中仍然不可或缺，許多超級計算機和高端計算系統(tǒng)仍然采用 AMD 或 Intel 處理器。雖然單個 CPU 在 SIMD 性能上無法與一般 GPU 競爭，但當它們以數(shù)千計連接在一起時，表現(xiàn)就相當不錯了。然而，這樣的系統(tǒng)在功耗效率方面欠佳。

例如，在 Radeon HD 4870 GPU 被用于天河一號超級計算機的同時，AMD 的頂級服務(wù)器 CPU（12 核 Opteron 6176 SE）也在廣泛應(yīng)用。雖然 CPU 的功耗約為 140W，理論上可達到 220 GFLOPS 的性能，但僅增加 10W 功耗的 GPU 則可提供高達 1,200 GFLOPS 的峰值性能，且成本只是 CPU 的一小部分。

一塊能做更多事的「小顯卡」

幾年后，不僅是世界上的超級計算機在使用 GPU 進行大量并行計算，英偉達也積極推廣其 GRID 平臺，這是一項用于科學(xué)和其他應(yīng)用的 GPU 虛擬化服務(wù)。最初，它作為一個托管云端游戲的系統(tǒng)推出，但在 GPGPU 大規(guī)模、低成本需求不斷增長的推動下，發(fā)生了這一轉(zhuǎn)變。在英偉達的年度技術(shù)會議上，GRID 作為各個行業(yè)工程師們的重要工具展示出來。

在同一活動中，GPU 制造商展示了一個未來架構(gòu)的概要，代號為 Volta。發(fā)布的細節(jié)很少，人們普遍認為這將是另一款面向英偉達所有市場的芯片。

與此同時，AMD 也在開展類似的項目。他們通過不斷更新其游戲型 Radeon 系列、服務(wù)器型 FirePro 和 Radeon Sky 系列顯卡的圖形核心下一代（GCN）設(shè)計。當時的性能表現(xiàn)令人驚嘆，F(xiàn)irePro W9100 的峰值 FP32 吞吐量達到 5.2 TFLOPS（32 位浮點），這一數(shù)據(jù)在不到二十年前的超級計算機上難以想象。

盡管 GPU 設(shè)計的初衷主要還是為了 3D 圖形處理，但隨著渲染技術(shù)的發(fā)展，這些芯片必須在處理通用計算任務(wù)方面表現(xiàn)出越來越高的性能。然而，唯一的問題在于它們處理高精度浮點數(shù)計算（即 FP64 或更高精度）的能力有限。

回顧 2015 年全球頂級超級計算機，使用 GPU 的數(shù)量相對較少，不論是 Intel 的 Xeon Phi 還是英偉達的 Tesla，與完全基于 CPU 的計算機相比，GPU 使用的數(shù)量都很少。

2016 年，隨著英偉達發(fā)布 Pascal 架構(gòu)，一切都發(fā)生了變化。這是該公司首次將重點放在專為高性能計算市場設(shè)計的 GPU 上，其他產(chǎn)品則適用于多個行業(yè)。在 Pascal 架構(gòu)中，僅有一種型號（GP100）產(chǎn)品是針對高性能計算市場的，并僅衍生出 5 款相關(guān)產(chǎn)品。但是，在以往的架構(gòu)中，只有少數(shù)幾個 FP64 核心，而這款芯片則擁有接近 2000 個 FP64 核心。

機架式裝置中的 8 個 P100 顯卡。來源：ComputerBase

隨著特斯拉 P100 提供超過 9 TFLOPS 的 FP32 處理能力和一半的 FP64 處理能力，這款圖形卡非常強大。相比之下，AMD 的 Radeon Pro W9100 使用 Vega 10 芯片，在 FP32 性能上提速 30%，但在 FP64 性能上卻慢了 800%。此時，由于銷售疲軟，英特爾即將停產(chǎn) Xeon Phi 處理器。

一年后，英偉達終于發(fā)布了 Volta 架構(gòu)，立刻表明公司不僅僅關(guān)注將其 GPU 引入高性能計算（HPC）和數(shù)據(jù)處理市場，還瞄準了另一個市場。

神經(jīng)元、網(wǎng)絡(luò)，真是驚奇無比

深度學(xué)習(xí)是在更廣泛的機器學(xué)習(xí)領(lǐng)域內(nèi)的一個子領(lǐng)域，而機器學(xué)習(xí)又是人工智能的一個子集。深度學(xué)習(xí)涉及使用復(fù)雜數(shù)學(xué)模型，即神經(jīng)網(wǎng)絡(luò)，從給定數(shù)據(jù)中提取信息。

一個例子是判斷給定圖片描繪的是否為特定動物的概率。要做到這一點，模型需要進行「訓(xùn)練」——以這個例子為例，訓(xùn)練過程中要展示數(shù)百萬張該動物的照片，以及數(shù)百萬張未出現(xiàn)該動物的照片。涉及到的數(shù)學(xué)計算主要基于矩陣和張量運算。

幾十年來，這種工作負載一直只能由基于 CPU 的超級計算機承擔(dān)。然而，早在 2000 年代初期，人們已經(jīng)認識到 GPU 非常適合處理這樣的任務(wù)。

盡管如此，英偉達把賭注押在深度學(xué)習(xí)市場的顯著擴張上，并在其 Volta 架構(gòu)中添加了特殊功能以在這一領(lǐng)域中脫穎而出。這個功能被稱為張量核心，它包括多個 FP16 邏輯單元，組成一個大陣列，但其功能較為有限。

Pascal（左）和 Volta（右）

實際上，它們的功能非常有限，只能執(zhí)行一個操作：將兩個 FP16 4x4 矩陣相乘，然后將另一個 FP16 或 FP32 4x4 矩陣加到結(jié)果上（這個過程稱為 GEMM 操作）。英偉達以及競爭對手之前的 GPU 也能執(zhí)行這樣的計算，但速度遠不如 Volta。這個架構(gòu)下的唯一一款 GPU，GV100，共有 512 個張量內(nèi)核，每個內(nèi)核能在一個時鐘周期內(nèi)執(zhí)行 64 個 GEMM 操作。

根據(jù)數(shù)據(jù)集中矩陣的大小以及所使用的浮點數(shù)大小，Tesla V100 顯卡在進行張量計算時理論上可以達到 125 TFLOPS 的性能。顯然，Volta 是為一個小眾市場而設(shè)計的。盡管 GP100 在超級計算機領(lǐng)域的應(yīng)用較為有限，但新型的 Tesla 顯卡卻迅速被廣泛采用。

隨后，英偉達在其后續(xù)的圖靈架構(gòu)中為普通消費類產(chǎn)品添加了張量核心，并開發(fā)了名為 DLSS（深度學(xué)習(xí)超采樣）的圖像放大技術(shù)。DLSS 利用 GPU 中的核心運行神經(jīng)網(wǎng)絡(luò)對圖像進行放大，同時糾正幀中的任何失真。

有一段時間，英偉達在深度學(xué)習(xí)領(lǐng)域的 GPU 加速市場一家獨大，數(shù)據(jù)中心業(yè)務(wù)的收入飆升，在 2017 財年、2018 財年和 2019 財年分別達到了 145%、133% 和 52% 的增長。到 2019 財年末，高性能計算、深度學(xué)習(xí)等市場的銷售收入累計達到 29 億美元，取得了非常顯著的成果。

市場隨后迎來了爆炸式增長。2023 年最后一個季度，公司的總收入達到了 221 億美元，同比暴增達到了 265%。大部分增長是由公司的人工智能項目帶來的，貢獻了 184 億美元的收入。

然而，在利潤豐厚的領(lǐng)域，競爭自然難以避免。盡管英偉達仍是頂級 GPU 供應(yīng)商，但其他大型科技公司也絕非甘于落后。

2018 年，谷歌開始通過云服務(wù)提供自家開發(fā)的張量處理芯片（Tensor Processing Chips）的訪問。不久之后，亞馬遜也跟進推出了專門的 CPU——AWS Graviton。同時，AMD 正在重組其 GPU 部門，形成了兩個截然不同的產(chǎn)品線：一個主要面向游戲（RDNA），另一個專門用于計算（CDNA）。

盡管 RDNA 與其前身有顯著不同，但 CDNA 實際上可以看作是 GCN 的自然演進，只不過是放大到了龐大的規(guī)模。如今，觀察用于超級計算機、數(shù)據(jù)服務(wù)器和 AI 機器的 GPU，一切都呈現(xiàn)出巨大的規(guī)模。

AMD 的 CDNA 2 驅(qū)動的 MI250X 配備了 220 個計算單元，提供了接近 48 TFLOPS 的雙精度 FP64 吞吐量，以及 128 GB 的高帶寬存儲器（HBM2e）。這兩方面在高性能計算應(yīng)用中都備受追捧。而英偉達的 GH100 芯片，采用 Hopper 架構(gòu)和 576 個張量核心，在 AI 矩陣計算中使用低精度的 INT8 數(shù)字格式，可以潛在地達到 4000 TOPS。

英特爾的 Ponte Vecchio GPU 同樣龐大，擁有 1000 億個晶體管，而 AMD 的 MI300 多了 460 億，由多個 CPU、圖形和內(nèi)存芯片組成。

然而，這些產(chǎn)品都有一個共同之處，那就是它們并不是真正的 GPU。在英偉達將這個術(shù)語當作營銷工具之前，GPU 這個縮寫代表的是圖形處理單元。AMD 的 MI250X 根本沒有光柵輸出單元（ROPs），即使是 GH100 在 Direct3D 性能方面也只類似于 GeForce GTX 1050，使得 GPU 中的「G」變得無關(guān)緊要。

那么，我們還能稱呼它們?yōu)槭裁茨兀?/span>

「GPGPU」并不理想，因為它表述得較笨拙，是指在通用計算中使用 GPU，并非指設(shè)備本身。"HPCU"（高性能計算單元）也好不到哪去。但也許這并不是很重要。

畢竟，「CPU」這個術(shù)語相當寬泛，涵蓋了各種不同類型的處理器和用途。

下一個 GPU 征服的領(lǐng)域是什么？

隨著英偉達、AMD、蘋果、英特爾以及其他數(shù)十家公司投入數(shù)十億美元進行 GPU 研究和開發(fā)，現(xiàn)今的圖形處理器短時間內(nèi)不太可能被截然不同的技術(shù)所替代。

對于渲染，最新的 API 和使用它們的軟件包（如游戲引擎和 CAD 應(yīng)用程序）通常對運行代碼的硬件并不挑剔。因此，從理論上講，它們可以很容易地適應(yīng)一種全新的硬件設(shè)備。

然而，在 GPU 中只有相對較少的部件專門用于圖形處理，其中最明顯的是三角形設(shè)置引擎、光柵化操作處理器（ROPs），以及在最近的版本中，高度專用的光線追蹤單元。然而，其余部分基本上是一個大規(guī)模并行的 SIMD 芯片，由強大且復(fù)雜的存儲器/緩存系統(tǒng)支持。

基本設(shè)計已經(jīng)非常成熟，未來的提升主要依賴于半導(dǎo)體制造技術(shù)的進步。換句話說，它們只能通過增加更多邏輯單元、提高時鐘速度或二者結(jié)合來實現(xiàn)進一步的優(yōu)化。

當然，可以將新功能整合到 GPU 中，從而讓它們在更廣泛的場景中發(fā)揮作用。在 GPU 歷史上，這樣的事情已經(jīng)發(fā)生過多次，而統(tǒng)一著色器架構(gòu)的過渡尤為重要。雖然專用硬件處理張量或光線追蹤計算更為理想，但現(xiàn)代 GPU 的核心也能夠勝任這些任務(wù)，盡管速度較慢。

正因如此，像 AMD MI250 和英偉達 GH100 這樣的產(chǎn)品與其桌面 PC 對應(yīng)產(chǎn)品有著極為相似的外觀，而未來用于高性能計算和人工智能的設(shè)計也很可能會延續(xù)這一趨勢。那么，如果芯片本身并沒有發(fā)生重大變化，它們的應(yīng)用領(lǐng)域會有什么變化呢？

谷歌的 Coral 加速板搭載了兩顆 Edge TPU 芯片

與人工智能相關(guān)的領(lǐng)域?qū)嵸|(zhì)上都屬于計算領(lǐng)域。在需要執(zhí)行大量 SIMD 計算的場景下，GPU 很可能會被用到。雖然現(xiàn)今科學(xué)與工程領(lǐng)域中很多行業(yè)已經(jīng)在利用這些處理器，但未來我們還可能見證 GPU 衍生品應(yīng)用的迅猛增長。

如今，人們可以購買到配備了專用于加速張量計算的微型芯片的手機。隨著像 ChatGPT 這樣的工具在性能和受歡迎程度上的不斷提升，我們將看到更多搭載此類硬件的設(shè)備。

作為簡單的圖形處理器，GPU 最初只是為了加速游戲運行而設(shè)計，但如今已經(jīng)演變成一種全方位的加速器。它在全球范圍內(nèi)助力各種工作站、服務(wù)器以及超級計算機的運行。

全球數(shù)百萬人每天都在使用這些技術(shù)——不僅在我們的電腦、手機、電視和流媒體設(shè)備中，還包括在使用整合了語音和圖像識別的服務(wù)，以及提供音樂和視頻推薦的服務(wù)時。

GPU 的未來可能是未知領(lǐng)域，但有一點可以肯定：在未來的幾十年里，圖形處理單元將繼續(xù)作為計算和 AI 領(lǐng)域的主導(dǎo)工具。