旗艦顯卡售價12999元起,比頂配iPhone 14 Pro Max還便宜。作者 | ZeR0
編輯 | 漠影
芯東西9月21日報道,昨夜,NVIDIA(英偉達(dá))推出新一代GeForce RTX 40系列顯卡。作為全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的GPU,RTX 40系列在性能和效率上都實現(xiàn)了巨大的代際飛躍。其中,新旗艦產(chǎn)品RTX 4090 GPU的現(xiàn)代游戲性能相較上一代3090 Ti提升最高可達(dá)2倍,光線追蹤游戲性能的提升最高達(dá)到4倍,開大招DLSS 3后暢玩4K賽博朋克都不在話下。英偉達(dá)創(chuàng)始人兼CEO黃仁勛在GTC大會主題演講的GeForce Beyond特別直播上介紹道,這意味著實時光線追蹤和利用AI生成像素的神經(jīng)網(wǎng)絡(luò)渲染的新時代已然來臨。首發(fā)的40系列有三款。旗艦產(chǎn)品RTX 4090 24GB將于10月12日上市,建議零售價12999元起。RTX 4080 16GB、RTX 4080 12GB將于11月上市,建議零售價分別為9499元起和7199元起。相比之下,RTX 3090首發(fā)價是11999元起,RTX 3090 Ti首發(fā)價是14999元起,一臺頂配iPhone 14 Pro Max首發(fā)價是13499元。這么一看,RTX 4090的性價比“真香”。華碩、七彩虹、耕升、影馳、技嘉、映眾、微星和索泰等頂級顯卡供應(yīng)商將在中國推出GeForce RTX 4090和4080 GPU標(biāo)頻版和超頻版。RTX 40系列GPU還會通過宏碁、外星人、華碩、戴爾、惠普、聯(lián)想、微星等全球領(lǐng)先OEM的產(chǎn)品出售。 NVIDIA還將限量推出RTX 4090和RTX 4080(16GB)FE版,以滿足粉絲需求。這些還只是GTC主題演講的“前菜”,同樣利用Ada Lovelace架構(gòu),英偉達(dá)面向自動駕駛計算推出了超級芯片DRIVE Thor,算力較上一代DRIVE Orin翻倍,浮點性能達(dá)2000 TFLOPS。專為元宇宙應(yīng)用打造的OVX計算機(jī)也升級至第二代,搭載了新Ada Lovelace L40數(shù)據(jù)中心GPU。還有新款微型機(jī)器人計算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。此外,英偉達(dá)在今年4月面向數(shù)據(jù)中心發(fā)布的旗艦計算產(chǎn)品H100 GPU同樣迎來關(guān)鍵進(jìn)展——全面投產(chǎn)。面向元宇宙應(yīng)用,英偉達(dá)還首次通過云服務(wù)進(jìn)一步拓展其平臺的覆蓋范圍——發(fā)布英偉達(dá)首款軟件和基礎(chǔ)設(shè)施即服務(wù)(IaaS)產(chǎn)品Omniverse Cloud,為元宇宙應(yīng)用的設(shè)計、發(fā)布、運營和體驗提供全面的云服務(wù)。
01.40系顯卡秒全場!臺積電定制版4N工藝
在將近25年前,英偉達(dá)推出了可編程著色GPU,GPU徹底改變3D圖形。2018年,在全球計算機(jī)圖形圖像頂會SIGGRAPH上,英偉達(dá)推出全新GPU架構(gòu)NVIDIA RTX,通過兩個全新處理器來擴(kuò)展可編程著色器——RT Core用于加速實時光線追蹤,Tensor Core用于處理矩陣運算、加速AI。今天,英偉達(dá)憋了4年的大招——第三代RTX架構(gòu)Ada Lovelace,終于正式登場!這代RTX以數(shù)學(xué)家Ada Lovelace的名字命名,她被公認(rèn)為世界上第一位計算機(jī)程序員。據(jù)介紹,Ada GPU可實現(xiàn)2倍的傳統(tǒng)光柵化游戲性能提升,對光線追蹤游戲的性能提升可以高達(dá)4倍。相較上一代Ampere架構(gòu),Ada在相同功耗下可帶來超過2倍的性能提升。“Ada正在為完全基于仿真的未來游戲鋪路?!秉S仁勛說。今天英偉達(dá)推出的基于Ada Lovelace架構(gòu)的GPU有三款:GeForce RTX 4090提供24GB版本,GeForce RTX 4080提供16GB和12GB版本。GeForce RTX 4090 GPU是全新GeForce RTX 40系列的旗艦產(chǎn)品,是全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的游戲GPU。RTX 4090擁有760億個晶體管、16384個CUDA核心和24 GB高速美光GDDR6X顯存,在4K分辨率的游戲中持續(xù)以超過100 FPS運行,在功耗、靜音、散熱等方面的提升都非常顯著。在完整的光線追蹤游戲中,與前一代采用DLSS 2的旗艦GPU RTX 3090 Ti相比,采用DLSS 3的RTX 4090的性能提升可達(dá)4倍。在現(xiàn)代游戲中,RTX 4090的性能提升高達(dá)2倍,同時保持了跟RTX 3090 Ti相同的450W功耗。實現(xiàn)性能飆升的一個關(guān)鍵,是Ada引入了全新的NVIDIA DLSS 3超分辨率技術(shù)。該功能可在不影響畫質(zhì)和響應(yīng)速度的前提下,使用低分辨率內(nèi)容作為輸入,并運用AI技術(shù)創(chuàng)造更多高質(zhì)量幀。黃仁勛說,玩像《賽博朋克2077》這樣的現(xiàn)代光線追蹤游戲,需對每個像素執(zhí)行超過600次光線追蹤計算來確定光照,與4年前推出的首批光線追蹤游戲相比提升高達(dá)16倍。但GPU中負(fù)責(zé)此類計算的晶體管數(shù)量并沒有以同比增加,借助AI,英偉達(dá)在4年內(nèi)將性能提升了16倍。無論是對GPU性能要求較高的游戲,還是受到CPU限制的游戲,都將從該技術(shù)中受益。3D藝術(shù)家無需代理就可以利用精確的物理學(xué)和逼真的材料渲染完整的光線追蹤環(huán)境,并實時查看效果。兩款次旗艦RTX 4080的配置則明顯跟RTX 4090拉開了差距。RTX 4080 16GB擁有9728個CUDA核心和16 GB高速美光GDDR6X顯存,在現(xiàn)代游戲中的性能可達(dá)GeForce RTX 3080 Ti的2倍;在較低功率下,性能比GeForce RTX 3090 Ti更強(qiáng)。RTX 4080 12GB擁有7680個CUDA核心和12GB 美光 GDDR6X顯存,性能跟3090 Ti同級。
02.7大技術(shù)創(chuàng)新,帶飛RTX 40系列性能
這次RTX 40系列GPU的性能大幅提升,背后有一系列技術(shù)創(chuàng)新的支撐。1、架構(gòu)上的改進(jìn):英偉達(dá)與臺積電合作創(chuàng)建了針對GPU優(yōu)化的4N定制工藝,使RTX 40系列能夠集成760億個晶體管、超過18000個CUDA核心,較上一代Ampere多了70%,性能功耗比提升高達(dá)2倍。2、SM流式多處理器:具有高達(dá)90 TFLOPS的著色器能力,吞吐量超過上一代產(chǎn)品2倍。3、著色器執(zhí)行重排序(SER):通過即時重新安排著色器負(fù)載來提高執(zhí)行效率,從而更好地利用GPU資源。該技術(shù)可以實時重新調(diào)度任務(wù),被黃仁勛稱作是“與CPU的亂序執(zhí)行一樣的重大創(chuàng)新”,可將光線追蹤性能提升2-3倍,整體游戲性能提升25%。4、第三代RT Cores:有效光線追蹤計算能力達(dá)到191 TFLOPS,是上一代產(chǎn)品2.8倍。第三代RT Cores可提供2倍的光線與三角形求交性能,及兩個全新的重要硬件單元。Opacity Micromap引擎將光線追蹤的Alpha-Test幾何性能提升2倍;Micro-Mesh引擎可動態(tài)生成微網(wǎng)格,以產(chǎn)生額外的幾何圖形,可在提升幾何圖形豐富度的同時,不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲成本為代價。5、第四代Tensor Cores:新增Hopper FP8 Transformer Engine,F(xiàn)P8張量處理性能高達(dá)1.4 Petaflops,超過上一代使用FP8加速性能的5倍。6、Ada光流加速器:帶來2倍的性能提升,使DLSS 3能夠預(yù)測場景中的運動,使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時提高幀率。7、雙NVIDIA編碼器(NVENC)將輸出時間至多縮短一半,并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1編碼器。
03.2000 TFLOPS,最強(qiáng)自動駕駛超級芯片來了!
在推出新一代自動駕駛芯片前,黃仁勛照例先回顧了一遍戰(zhàn)績:英偉達(dá)在2018年推出的Xavier是世界上第一款專為深度學(xué)習(xí)設(shè)計的機(jī)器人處理器,此后每隔兩年,英偉達(dá)就會發(fā)布性能飛躍的新一代處理器。去年,英偉達(dá)發(fā)布的Altan更是將峰值性能拉到了1000 TOPS。今天,黃仁勛放出新的大招——NVIDIA DRIVE Thor的吞吐量達(dá)到Atlan的2倍,整型峰值性能可達(dá)2000 TOPS,F(xiàn)P8精度的峰值性能可達(dá)到2000 TFLOPS,同時降低整體系統(tǒng)成本,目標(biāo)是汽車制造商的2025年車型。實現(xiàn)這一目標(biāo),得益于三個因素:Grace CPU、Hopper GPU和Ada Lovelace GPU。Hopper集成的Transformer引擎有助于加速計算,Ada中多實例GPU的發(fā)明將有助于車載計算資源的集中化,可將成本降低數(shù)百美元。Thor可配置為多種模式,可將其算力全部用于自動駕駛工作流,或者將其中一部分用于駕駛艙AI和信息娛樂,另一部分用于駕駛員輔助。Thor的多計算域隔離,使其允許并發(fā)的、對時間敏感的多進(jìn)程無中斷運行。車輛可以在一臺計算機(jī)上,同時運行Linux、QNX和Android。當(dāng)前汽車的停車、主動安全、駕駛員監(jiān)控、攝像頭鏡像、集群、信息娛樂等功能由不同的計算設(shè)備控制,未來這些功能可以統(tǒng)一由Thor支撐。兩個DRIVE Thor還能利用最新的NVLink-C2C芯片互連技術(shù)“拼接”成一塊功能更強(qiáng)的芯片,作為運行單個操作系統(tǒng)的整體平臺。回到英偉達(dá)第二代機(jī)器人處理器DRIVE Orin上,Orin已經(jīng)被40多家汽車、卡車、無人駕駛出租車和穿梭巴士的制造公司采用。自動駕駛汽車的基本處理流水線可應(yīng)用于各種機(jī)器人系統(tǒng)。Jetson系列是英偉達(dá)打造的機(jī)器人計算機(jī),擁有100萬開發(fā)者,在本屆GTC大會上,黃仁勛宣布推出一款微型機(jī)器人計算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。有移動的機(jī)器人,也有觀察移動物體的機(jī)器人系統(tǒng)。英偉達(dá)邊緣AI平臺Metropolis的下載量已達(dá)100萬次,在全球擁有1000多家應(yīng)用合作伙伴。Orin還是Metropolis運行所在的工業(yè)級IGX Edge AI平臺的機(jī)器人處理器。全球大型工業(yè)自動化公司西門子將Metropolis和Orin IGX用于其工業(yè)邊緣計算平臺。除了機(jī)器人開發(fā)外,Orin IGX也是醫(yī)療影像應(yīng)用的理想計算平臺。在Orin IGX上運行的NVIDIA Clara Holoscan是一個低延遲的成像處理平臺,包含用于數(shù)據(jù)處理、AI模型訓(xùn)練、仿真和機(jī)器人開發(fā)應(yīng)用的庫。70多家領(lǐng)先的醫(yī)療設(shè)備公司、創(chuàng)企及醫(yī)療中心都在Clara Holoscan上進(jìn)行開發(fā)。Activ Surgical、Proximie和Moon Surgical將在運行于Orin IGX平臺的NVIDIA Clara Holoscan上構(gòu)建其手術(shù)機(jī)器人系統(tǒng)。
04.劍指元宇宙:第二代OVX計算機(jī)升級Ada架構(gòu),推出首款I(lǐng)aas云服務(wù)
面向元宇宙應(yīng)用,黃仁勛宣布推出第二代OVX計算機(jī),由全新Ada Lovelace L40數(shù)據(jù)中心GPU和增強(qiáng)的網(wǎng)絡(luò)技術(shù)提供支持,以提供突破性的實時圖形、AI和數(shù)字孿生模擬功能。借助48GB超大幀緩沖區(qū),擁有8個L40 GPU的第二代OVX將能完成超大的Omniverse虛擬世界仿真。L40 GPU已全面進(jìn)入量產(chǎn)。第二代OVX系統(tǒng)將于明年年初向市場提供。除了元宇宙專屬硬件外,英偉達(dá)還打造了其首款I(lǐng)aaS產(chǎn)品Omniverse Cloud服務(wù),可連接在云、本地或設(shè)備上運行的Omniverse應(yīng)用。個人或團(tuán)隊可以借助該服務(wù)一鍵體驗設(shè)計和協(xié)作3D工作流程的能力,而無需任何本地計算能力。新的Omniverse容器現(xiàn)已可用于云部署,包括用于生成合成數(shù)據(jù)的Replicator、用于擴(kuò)展渲染農(nóng)場的Farm、用于構(gòu)建和訓(xùn)練AI機(jī)器人的Isaac Sim等。英偉達(dá)為自主移動機(jī)器人打造的Isaac平臺進(jìn)入云端后,用戶可在NGC上獲取云就緒的Omniverse VMI虛擬機(jī)鏡像和Isaac容器,并將其部署到任何公有云上。
05.從云端到超算,H100全面投產(chǎn)
最后,我們來看一下面向數(shù)據(jù)中心和高性能計算的加速計算最新進(jìn)展。黃仁勛說,NVIDIA平臺現(xiàn)已擁有350萬名開發(fā)者,12000家創(chuàng)企正基于英偉達(dá)的產(chǎn)品開創(chuàng)新業(yè)務(wù),英偉達(dá)通過550個SDK和AI模型為約3000個應(yīng)用提供加速?!翱傮w來說,我們所服務(wù)的各行業(yè)總價值約為100萬億美元?!?/span>面向數(shù)據(jù)中心,英偉達(dá)在今年4月發(fā)布的最新旗艦產(chǎn)品H100 Tensor Core GPU已經(jīng)進(jìn)入大規(guī)模量產(chǎn)。H100包含800億個晶體管,采用了全新Hopper架構(gòu)、Transformer引擎、第二代多實例GPU、機(jī)密計算、第四代NVIDIA NVLink互連、DPX指令等多種創(chuàng)新技術(shù),能夠被用于加速高級推薦系統(tǒng)、大型語言模型等超大規(guī)模的AI模型訓(xùn)練。據(jù)介紹,H100使企業(yè)能夠削減AI的部署成本,相較于上一代A100,在提供相同AI性能的情況下,可將能效提高3.5倍,總體擁有成本減少至1/3,所使用的服務(wù)器節(jié)點數(shù)也減少至1/5。英偉達(dá)全球技術(shù)合作伙伴計劃于10月推出首批基于NVIDIA Hopper架構(gòu)的產(chǎn)品和服務(wù),到今年年底預(yù)計將有超過50款服務(wù)器型號面市,2023年上半年還將有數(shù)十款型號面市。AWS、谷歌云、微軟Azure、Oracle Cloud Infrastructure將從明年開始率先在云端部署基于H100的實例。數(shù)家全球領(lǐng)先的高等教育和研究機(jī)構(gòu)的新一代超級計算機(jī)也將采用H100。DGX H100系統(tǒng)現(xiàn)在即可訂購。該系統(tǒng)FP8精度的峰值性能可達(dá)到32 PFlops。每個DGX系統(tǒng)都包含NVIDIA Base Command和NVIDIA AI Enterprise軟件,可實現(xiàn)從單一節(jié)點到NVIDIA DGX SuperPOD的集群部署。在軟件支持上,H100現(xiàn)包含為期五年的NVIDIA AI Enterprise軟件套件許可,這將優(yōu)化AI工作流程的開發(fā)部署,確保用戶可獲得構(gòu)建AI聊天機(jī)器人、推薦引擎、視覺AI等所需的AI框架和工具。 一些全球領(lǐng)先的大型語言模型和深度學(xué)習(xí)框架正在H100上進(jìn)行優(yōu)化,這些框架與Hopper架構(gòu)相結(jié)合,能夠顯著提升AI性能,將大型語言模型的訓(xùn)練時間縮短到幾天乃至幾小時。
06.推出兩種大型語言模型云服務(wù)助攻生物醫(yī)學(xué)研究
大型語言模型(LLM)是當(dāng)今最重要的AI模型之一。借助LLM,用戶只需通過較少的樣本來精調(diào)模型,就能高效執(zhí)行特定任務(wù)。Hopper架構(gòu)則有助于降低LLM的訓(xùn)練及部署門檻。今天,英偉達(dá)推出Nemo LLM云服務(wù),用于訓(xùn)練大型語言模型。Nemo包含社區(qū)構(gòu)建的一系列預(yù)訓(xùn)練基礎(chǔ)模型,其API可生成習(xí)得的提示embedding表和優(yōu)化的微服務(wù),可部署在本地、云中,適用于一個GPU或者多個GPU、多個節(jié)點?,F(xiàn)在注冊,10月就能搶先體驗這項服務(wù)。英偉達(dá)還推出了BioNeMo LLM服務(wù),用于訓(xùn)練和部署超算規(guī)模的大型生物分子語言模型。領(lǐng)先的制****公司、生物技術(shù)初創(chuàng)企業(yè)和前沿生物研究人員正在使用BioNeMo LLM服務(wù)和框架來開發(fā)用于生成、預(yù)測和理解生物分子數(shù)據(jù)的AI應(yīng)用,從而更好地了解疾病,并找到治療方法。NVIDIA BioNeMo LLM服務(wù)將提供4個預(yù)訓(xùn)練語言模型:1、ESM-1:這一最初由Meta AI Labs發(fā)布的蛋白質(zhì)LLM能夠處理氨基酸序列,最終生成用于預(yù)測各種蛋白質(zhì)特性和功能的表征。它還提高了科學(xué)家理解蛋白質(zhì)結(jié)構(gòu)的能力。2、OpenFold:這是由學(xué)術(shù)界和產(chǎn)業(yè)界共同成立的Openfold聯(lián)盟創(chuàng)建的sota蛋白質(zhì)建模工具,可通過BioNeMo服務(wù)提供其開源AI工作流程。3、MegaMolBART:這一基于14億分子訓(xùn)練而成的生成式化學(xué)模型可用于反應(yīng)預(yù)測、分子優(yōu)化和新分子的生成。4、ProtT5:該模型是在慕尼黑工業(yè)大學(xué)RostLab的帶領(lǐng)下合作開發(fā)的,NVIDIA也是該項目的參與者之一。PortT5將ESM-1b等蛋白質(zhì)LLM的功能擴(kuò)展到序列生成。這些模型針對推理進(jìn)行了優(yōu)化,并將通過NVIDIA DGX Foundry上運行的云端API提供搶先體驗。
07.結(jié)語:英偉達(dá)已成為一家全棧式計算公司
英偉達(dá)在1999年發(fā)明的GPU,激發(fā)PC游戲市場的增長、重新定義了計算機(jī)顯卡并助燃了現(xiàn)代AI普及的浪潮。此次新推出的Ada Lovelace一代GPU,改進(jìn)了作為神經(jīng)渲染引擎的全部三個RTX處理器,對于游戲玩家、虛擬世界創(chuàng)作者都帶來了新的生產(chǎn)力工具。可以看到,如今的英偉達(dá)已發(fā)展成為一家全棧式計算公司,無論是加速計算,還是計算機(jī)圖形,都通過在架構(gòu)、設(shè)計和算法方面進(jìn)行創(chuàng)新疊加來實現(xiàn)性能的突破。與此同時,AI技術(shù)已經(jīng)滲透到英偉達(dá)產(chǎn)品的各個角落,用于與更多技術(shù)創(chuàng)新的結(jié)合,推動科學(xué)及工業(yè)領(lǐng)域更多AI新應(yīng)用的突破,并為數(shù)字經(jīng)濟(jì)發(fā)展提供動力。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
pid控制相關(guān)文章:pid控制原理
pwm相關(guān)文章:pwm是什么
模數(shù)轉(zhuǎn)換器相關(guān)文章:模數(shù)轉(zhuǎn)換器工作原理
pid控制器相關(guān)文章:pid控制器原理
電流變送器相關(guān)文章:電流變送器原理
晶振相關(guān)文章:晶振原理
脈寬調(diào)制相關(guān)文章:脈寬調(diào)制原理