陳巍談芯:最新發(fā)布的壁仞GPU BR100參數(shù)深度對比和優(yōu)勢分析
從專業(yè)視角來看BR100的技術(shù)亮點,包括算力、能效比、多GPU互連、多實例GPU。架構(gòu)上做了優(yōu)化,特別是做了近存計算/存算一體優(yōu)化,芯片可圈可點,專利壁壘和生態(tài)上的挑戰(zhàn)才剛剛開始。
本文引用地址:http://cafeforensic.com/article/202209/437903.htm清晰性能對比表在文末
作者: 陳巍 博士 存算一體/GPU架構(gòu)和AI專家,高級職稱。曾任AI企業(yè)首席科學家、國內(nèi)首個3D NAND設(shè)計團隊負責人。
無利益相關(guān),歸納一下BR100已公開的可能弱項和亮點。
1,可能的弱項
(這里僅僅說可能,因為具體技術(shù)細節(jié)還需要由壁仞公開)
1)對于通用計算生態(tài)的支持有待觀察
畢竟針對AI計算進行了流處理器優(yōu)化,因此有可能犧牲部分通用計算能力來強化與AI相關(guān)的矩陣計算。這種優(yōu)化是合理的但也可能導(dǎo)致客戶量減少。以致于有業(yè)內(nèi)人士將之形容為“大號的AI芯片”或者“昇騰的友商”。可以說看起來是介于傳統(tǒng)GPGPU和AI芯片之間的一個形態(tài),技術(shù)混血。
而且GPU之所以能成為主流的AI計算芯片,與GPU對AI的通用計算支持關(guān)系很大。畢竟絕大部分場景,除了AI計算外,還有很多非AI計算。生態(tài)是任何GPU芯片的根本。一般來說同樣算力的CUDA 核(通用流處理器的核心)面積和功耗是大于AI核的,所以不排除壁仞團隊縮減通用流式處理器的硬件算子支持能力來提升AI算力的可能性。(當然這類操作對AI專用場景的芯片也是合理的)
對于同為清華電子系的夏晶晶老師所說的:”全盤放棄FP16,梭哈BF16,部分BF16無法收斂的網(wǎng)絡(luò)用低一檔性能的FP32“,尊重其觀點,我暫時持保留意見:)
就我在AI企業(yè)擔任首席科學家期間,我看到的大部分Inference的model使用的是FP16定型,這也就意味著,對于大部分AI煉丹師和企業(yè),F(xiàn)P16目前是其能夠reuse其寶貴算法資產(chǎn)的底褲。如果未來遷移到其他AI芯片,也是以FP16為準。當然以后這個底褲可能會變?yōu)锽F16,但這一遷移過程可能意味著已部署模型的重訓練,幾乎足以抵消算力提升帶來的優(yōu)勢,甚至意味著AI企業(yè)管理層對煉丹師們的極大不解:”為什么都是支持16位浮點,部署換到BR100就必須要重新訓練模型“。
我不清楚BR100的主架構(gòu)師犧牲FP16這個業(yè)內(nèi)使用最多的數(shù)據(jù)類型的最關(guān)鍵考量是什么,希望不是為了討好投資人,畢竟這一舉措有可能因此失去大量的潛在客戶。
2)算力遠大于PCIe帶寬導(dǎo)致的算力利用率風險
我們看到BR100的內(nèi)部算力帶寬已經(jīng)明顯超過PCIe5/HBM2e的帶寬,所以絕大部分數(shù)據(jù)可能都要在GPU內(nèi)流轉(zhuǎn),這很可能導(dǎo)致在大部分情況下,GPU需要等待從PCIe和HBM2e傳回的數(shù)據(jù)。這樣再加上較大的片上SRAM,可能會導(dǎo)致有效算力的性價比稍低。因此BLink互連對這類大算力計算卡就變得尤為重要,通過互連來彌補數(shù)據(jù)帶寬的不足。
3)專利風險
這也是國內(nèi)GPU企業(yè)所要面臨的共同問題。絕大部分的優(yōu)化,包括架構(gòu),都是北美和國內(nèi)那些AI芯片企業(yè)已經(jīng)使用過的技術(shù)。當然,這些技術(shù)應(yīng)用在GPU中,還是要做很多努力和創(chuàng)新的。但這也意味著,如果真的能跟NV抗衡,很可能受到北美的專利攻擊。
2,亮點梳理
祝賀壁仞團隊取得的突破。
歸納一下BR100已公開的技術(shù)亮點(1-5):
1)標稱算力突破。使用TSMC N7工藝達到了NVIDIA 使用更先進的N4工藝的標稱算力。這應(yīng)是 壁仞團隊技術(shù)+數(shù)據(jù)流并行+Chiplet技術(shù) 的勝利。因為采用了數(shù)據(jù)流架構(gòu),估計有效算力比率跟NVIDIA比不會差。
至于稀疏化嘛,相當于只算模型權(quán)重中大的一半,通常會導(dǎo)致精度下降,不如模型壓縮效果好,實際的云計算用的少。個人認為稀疏化的主要適用場景是對計算精度要求不高的端側(cè)場景,在云計算領(lǐng)域,稀疏化算力的實用意義不大。稀疏化算力做到非稀疏化算力的20倍都沒啥問題,客戶不用標再高也沒意義,所以不必糾結(jié)于與稀疏化算力的比較。
2)能效比超過同工藝GPU A100 78.8%。非常不錯的成績,這應(yīng)是 壁仞團隊技術(shù)+近存計算技術(shù)的勝利。(近存計算是存算一體技術(shù)的一種)。
3)支持多GPU互連。這個是多GPU級聯(lián)計算大模型的關(guān)鍵。
4)支持多GPU實例。這是GPU上云虛擬化的關(guān)鍵。我和耿云川博士帶的團隊也完成了存算一體架構(gòu)下多實例的設(shè)計,所以很清楚這一工作需要面對的挑戰(zhàn)。
5)支持國密安全規(guī)范。這是進入國產(chǎn)自主可控計算領(lǐng)域的關(guān)鍵點之一。
下面,軟件生態(tài)的挑戰(zhàn)將是國產(chǎn)GPU面對的關(guān)鍵挑戰(zhàn),祝各個國產(chǎn)GPU玩家都能取得好成績。
評論