色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > Nvidia的Blackwell AI GPU過熱問題似乎被過度夸大——半導(dǎo)體分析師透露,冷卻問題已大多得到解決

          Nvidia的Blackwell AI GPU過熱問題似乎被過度夸大——半導(dǎo)體分析師透露,冷卻問題已大多得到解決

          作者:EEPW 時(shí)間:2024-11-21 來源:EEPW 收藏

          Nvidia的GB200 NVL72服務(wù)器機(jī)架過熱問題似乎被夸大了。根據(jù)《商業(yè)內(nèi)幕》的報(bào)道,Blackwell的冷卻設(shè)計(jì)缺陷已經(jīng)得到解決。Semianalysis的首席分析師Dylan Patel向《商業(yè)內(nèi)幕》表示,Blackwell的設(shè)計(jì)問題已經(jīng)存在幾個(gè)月,但大多數(shù)問題已經(jīng)得到解決,過熱問題被夸大了。

          本文引用地址:http://cafeforensic.com/article/202411/464808.htm

          Semianalysis的五位半導(dǎo)體行業(yè)分析師表示,導(dǎo)致多個(gè)供應(yīng)商進(jìn)行“返工”的冷卻系統(tǒng)問題是一個(gè)“小問題”。Blackwell的冷卻問題尤其在Nvidia的大型72芯片服務(wù)器機(jī)架中出現(xiàn),后者的功率需求可達(dá)到120kW。機(jī)架設(shè)計(jì)中的缺陷迫使Nvidia多次重新評(píng)估設(shè)計(jì),因?yàn)闄C(jī)架內(nèi)的GPU過熱。這導(dǎo)致Nvidia的GB200硬件出貨延遲,并因需要進(jìn)行設(shè)計(jì)更改而進(jìn)一步推遲。

          Nvidia的B200 GPU是AI工作負(fù)載中最強(qiáng)大的處理芯片。例如,GB200超級(jí)芯片的可配置熱設(shè)計(jì)功率(TDP)高達(dá)幾千瓦,峰值功率可達(dá)2700瓦。這些極高的功率使得在標(biāo)準(zhǔn)機(jī)架形式中幾乎不可能使用空氣冷卻。

          這一物理問題迫使Nvidia在最新的Blackwell GPU上使用液體冷卻。同時(shí),它還要求數(shù)據(jù)中心重新改造服務(wù)器農(nóng)場,以容納支持液冷服務(wù)器所需的基礎(chǔ)設(shè)施。

          Nvidia可以通過制造較低功率的空氣冷卻GPU來解決這個(gè)問題——該公司仍然制造這種類型的GPU,例如H200 NVL。然而,為了在AI GPU競賽中保持領(lǐng)先,Nvidia優(yōu)先考慮性能,而不顧成本,這就是為什么該公司選擇制造需要數(shù)千瓦功率的GPU,而犧牲空氣冷卻的原因。

          好消息是,Nvidia的72芯片Blackwell冷卻問題似乎較輕微,且已大致得到解決。此外,只有Nvidia的旗艦72芯片服務(wù)器機(jī)架存在這個(gè)問題。



          關(guān)鍵詞:

          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉