11 分鐘訓(xùn)完 GPT-3,英偉達(dá) H100 橫掃 MLPerf 8 項(xiàng)基準(zhǔn)測(cè)試,下一代顯卡 25 年發(fā)布
最新 MLPerf 訓(xùn)練基準(zhǔn)測(cè)試中,H100 GPU 在所有的八項(xiàng)測(cè)試中都創(chuàng)下了新紀(jì)錄!
本文引用地址:http://cafeforensic.com/article/202306/448169.htm如今,NVIDIA H100 幾乎已經(jīng)統(tǒng)治了所有類別,并且是新 LLM 基準(zhǔn)測(cè)試中使用的唯一 的 GPU。
3,584 個(gè) H100 GPU 群在短短 11 分鐘內(nèi)完成了基于 GPT-3 的大規(guī)模基準(zhǔn)測(cè)試。
MLPerf LLM 基準(zhǔn)測(cè)試是基于 OpenAI 的 GPT-3 模型進(jìn)行的,包含 1750 億個(gè)參數(shù)。
Lambda Labs 估計(jì),訓(xùn)練這樣一個(gè)大模型需要大約 3.14E23 FLOPS 的計(jì)算量。
11 分鐘訓(xùn)出 GPT-3 的怪獸是如何構(gòu)成的
在 LLM 和 BERT 自然語(yǔ)言處理 (NLP) 基準(zhǔn)測(cè)試中排名最高的系統(tǒng),是由 NVIDIA 和 Inflection AI 聯(lián)合開發(fā)。
由專門從事企業(yè)級(jí) GPU 加速工作負(fù)載的云服務(wù)提供商 CoreWeave 托管。
該系統(tǒng)結(jié)合了 3584 個(gè) NVIDIA H100 加速器和 896 個(gè) Intel Xeon Platinum 8462Y + 處理器。
因?yàn)?a class="contentlabel" href="http://cafeforensic.com/news/listbylabel/label/英偉達(dá)">英偉達(dá)在 H100 中引入了新的 Transformer 引擎,專門用于加速 Transformer 模型訓(xùn)練和推理,將訓(xùn)練速度提高了 6 倍。
CoreWeave 從云端提供的性能與英偉達(dá)從本地?cái)?shù)據(jù)中心運(yùn)行的 AI 超級(jí)計(jì)算機(jī)所能提供的性能已經(jīng)非常接近了。
這得益于 CoreWeave 使用的 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)具有低延遲網(wǎng)絡(luò)。
隨著參與訓(xùn)練的 H100 GPU 從數(shù)百個(gè)擴(kuò)展到 3000 多個(gè)。
良好的優(yōu)化使得整個(gè)技術(shù)堆棧在要求嚴(yán)苛的 LLM 測(cè)試中實(shí)現(xiàn)了近乎線性的性能擴(kuò)展。
如果將 GPU 的數(shù)量降低到一半,訓(xùn)練相同的模型時(shí)間會(huì)增加到 24 分鐘。
說(shuō)明整個(gè)系統(tǒng)的效率潛力,隨著 GPU 的增加,是超線性的。
最主要的原因是,英偉達(dá)從 GPU 設(shè)計(jì)之初就考慮到了這個(gè)問(wèn)題,使用 NVLink 技術(shù)來(lái)高效實(shí)現(xiàn)了 GPU 之間的通信。
在參與測(cè)試的 90 個(gè)系統(tǒng)中,有 82 個(gè)系統(tǒng)都使用了英偉達(dá)的 GPU 進(jìn)行加速。
單卡訓(xùn)練效率
系統(tǒng)集群訓(xùn)練時(shí)間對(duì)比
英特爾參加測(cè)評(píng)的系統(tǒng)使用 64 到 96 個(gè)不等的 Intel Xeon Platinum 8380 處理器和 256 到 389 個(gè)不等的 Intel Habana Gaudi2 加速器。
然而,英特爾提交的 GPT-3 的訓(xùn)練時(shí)間為 311 分鐘。
成績(jī)和英偉達(dá)相比就稍微有點(diǎn)慘不忍睹了。
分析師:英偉達(dá)優(yōu)勢(shì)過(guò)大
行業(yè)分析師認(rèn)為,英偉達(dá)的在 GPU 上的技術(shù)優(yōu)勢(shì)是非常明顯的。
而它作為 AI 基礎(chǔ)設(shè)施提供商,在行業(yè)中的主導(dǎo)地位還體現(xiàn)在英偉達(dá)多年建立起來(lái)的生態(tài)系統(tǒng)粘性上。
AI 社區(qū)對(duì)英偉達(dá)的軟件的依賴性也非常強(qiáng)。
幾乎所有 AI 框架都基于英偉達(dá)提供的底層 CUDA 庫(kù)和工具。
而且它還能提供全堆棧的 AI 工具和解決方案。
除了為 AI 開發(fā)人員提供支持之外,英偉達(dá)還繼續(xù)投資用于管理工作負(fù)載和模型的企業(yè)級(jí)工具。
在可預(yù)見(jiàn)的未來(lái),英偉達(dá)在行業(yè)的領(lǐng)先地位將會(huì)非常穩(wěn)固。
分析師還進(jìn)一步指出。
MLPerf 測(cè)試結(jié)果中所展現(xiàn)的,NVIDIA 系統(tǒng)在云端進(jìn)行 AI 訓(xùn)練的強(qiáng)大功能和效率,才是英偉達(dá)「戰(zhàn)未來(lái)」的最大本錢。
下一代 Ada Lovelace GPU,2025 年發(fā)布
Tom's Hardware 自由撰稿人 Zhiye Liu 也于近日發(fā)文,介紹了下一代英偉達(dá) Ada Lovelace 顯卡的計(jì)劃。
H100 訓(xùn)練大模型的能力,毋庸置疑。
只用 3584 個(gè) H100,短短 11 分鐘內(nèi),就能訓(xùn)練出一個(gè) GPT-3 模型。
在最近的新聞發(fā)布會(huì)上,英偉達(dá)分享了一份新路線圖,詳細(xì)介紹了下一代產(chǎn)品,包括 GeForce RTX 40 系列 Ada Lovelace GPU 的繼任者,而前者,是當(dāng)今最好的游戲顯卡。
根據(jù)路線圖,英偉達(dá)計(jì)劃在 2025 年推出「Ada Lovelace-Next」顯卡。
如果繼續(xù)沿用當(dāng)前的命名方案,下一代 GeForce 產(chǎn)品應(yīng)該是作為 GeForce RTX 50 系列上市。
根據(jù)南美黑客組織 LAPSU$ 得到的信息,Hopper Next 很可能被命名為 Blackwell。
在消費(fèi)級(jí)顯卡上,英偉達(dá)保持著兩年一更新的節(jié)奏。
他們?cè)?2016 年推出了 Pascal,在 2018 年推出了 Turing,在 2020 年推出了 Ampere,在 2022 年推出了 Ada Lovelace。
如果這次 Ada Lovelace 的繼任者會(huì)在 2025 年推出,英偉達(dá)無(wú)疑就打破了通常的節(jié)奏。
最近的 AI 大爆發(fā),產(chǎn)生了對(duì)英偉達(dá) GPU 的巨大需求,無(wú)論是最新的 H100,還是上一代的 A100。
根據(jù)報(bào)道,某大廠今年就訂購(gòu)了價(jià)值 10 億美元的 Nvidia GPU。
盡管有出口限制,但我國(guó)仍然是英偉達(dá)在全世界最大的市場(chǎng)之一。
(據(jù)說(shuō),在深圳華強(qiáng)北電子市場(chǎng),就可以買到少量英偉達(dá) A100,每塊售價(jià)為 2 萬(wàn)美元,是通常價(jià)格的兩倍。)
對(duì)此,英偉達(dá)已經(jīng)對(duì)某些 AI 產(chǎn)品做了微調(diào),發(fā)布了 H100 或 A800 等特定 SKU,以滿足出口要求。
Zhiye Liu 對(duì)此分析道,換個(gè)角度看,出口法規(guī)其實(shí)是有利于英偉達(dá)的,因?yàn)檫@意味著芯片制造商客戶必須購(gòu)買更多原版 GPU 的變體,才能獲得同等的性能。
這也就能理解,為什么英偉達(dá)會(huì)優(yōu)先考慮生成計(jì)算 GPU,而非游戲 GPU 了。
最近的報(bào)道顯示,英偉達(dá)已經(jīng)增加了計(jì)算級(jí) GPU 的產(chǎn)量。
沒(méi)有面臨來(lái)自 AMD 的 RDNA 3 產(chǎn)品堆棧的激烈競(jìng)爭(zhēng),英特爾也沒(méi)有對(duì) GPU 雙頭壟斷構(gòu)成嚴(yán)重威脅,因此,英偉達(dá)在消費(fèi)側(cè)可以拖延。
最近,Nvidia 通過(guò) GeForce RTX 4060 和 GeForce RTX 4060 Ti,將其 GeForce RTX 40 系列產(chǎn)品堆棧又?jǐn)U大了。
GeForce RTX 4050 以及頂部的 RTX 4080 Ti 或 GeForce RTX 4090 Ti 等,都有潛力。
如果迫不得已,英偉達(dá)還可以從舊的 Turing 版本中拿出一個(gè)產(chǎn)品,更新 Ada Lovelace,給它封個(gè)「Super」待遇,進(jìn)一步擴(kuò)展 Ada 陣容。
最后,Zhiye Liu 表示,至少今年或明年,Lovelace 架構(gòu)不會(huì)真正更新。
評(píng)論