色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<big id="16611"></big>

新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 算力網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)有何不同

算力網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)有何不同

作者：時間：2025-01-03 來源：是德科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

隨著人工智能（AI）和機(jī)器學(xué)習(xí)（ML）的日益普及，對數(shù)據(jù)中心網(wǎng)絡(luò)的需求也在增長。

本文引用地址：http://cafeforensic.com/article/202501/465997.htm

本白皮書分析了AI網(wǎng)絡(luò)的新要求、獨(dú)特的AI流量模式，以及如何利用現(xiàn)有技術(shù)使以太網(wǎng)網(wǎng)絡(luò)適應(yīng)運(yùn)行高性能AI工作負(fù)載。此外，還討論了Keysight解決方案如何幫助優(yōu)化AI網(wǎng)絡(luò)。

新的網(wǎng)絡(luò)要求

支持AI和ML的網(wǎng)絡(luò)在要求和流量模式上與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)存在顯著差異。在傳統(tǒng)數(shù)據(jù)中心和AI數(shù)據(jù)中心之間，數(shù)據(jù)的類型、數(shù)量和流量模型都有很大的不同。大型AI集群的硬件投資高達(dá)數(shù)億美元，通過優(yōu)化可以顯著減少模型訓(xùn)練所需的時間。

傳統(tǒng)數(shù)據(jù)中心

在傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)中，常見的工作負(fù)載包括單個查詢或定時作業(yè)，如夜間作業(yè)。這些工作負(fù)載變化很大，流量分布在不同的會話上。整個網(wǎng)絡(luò)負(fù)載在單個鏈路上均勻分布，隨著用戶數(shù)量的增加而成比例增長。通常，延遲或丟失的數(shù)據(jù)包不會造成重大問題。例如，銀行后端系統(tǒng)處理單個賬戶余額的網(wǎng)頁請求或計算利息的夜間作業(yè)。

AI數(shù)據(jù)中心

相比之下，數(shù)據(jù)中心中的AI集群需要表現(xiàn)得像超級計算機(jī)，配備成千上萬的圖形處理單元（GPU）和數(shù)百個CPU及交換機(jī)。在AI集群中，所有GPU都致力于解決同一個問題。構(gòu)建大型語言模型（LLM）可能需要數(shù)天或數(shù)周時間。通過最快的網(wǎng)絡(luò)鏈路相互連接，這些GPU需要移動大量數(shù)據(jù)，不能在任何鏈路上丟失數(shù)據(jù)包或遇到擁堵。因?yàn)樗蠫PU都在處理同一個問題，所以當(dāng)最后一個GPU完成處理時，任務(wù)就完成了。一旦構(gòu)建完成，LLM可以遷移到較小的GPU或基于CPU的前端計算機(jī)系統(tǒng)。然后，用戶可以使用模型，看看它在訓(xùn)練期間學(xué)到的信息應(yīng)用得如何。這個過程被稱為推理。本文僅討論后端LLM訓(xùn)練。

擴(kuò)展性

擴(kuò)展傳統(tǒng)數(shù)據(jù)中心時，優(yōu)化主要取決于比較查詢響應(yīng)的服務(wù)級別（SLA）與實(shí)際結(jié)果。例如，檢索支票賬戶余額的響應(yīng)可能在毫秒級，而大型夜間作業(yè)可能需要數(shù)小時。若結(jié)果未達(dá)預(yù)期時效，運(yùn)維人員可以調(diào)整服務(wù)器數(shù)量和網(wǎng)絡(luò)速度。

然而，擴(kuò)展AI集群需要優(yōu)化構(gòu)建模型的時間。新模型構(gòu)建可能需數(shù)周或數(shù)月。即使縮短幾天，也能釋放AI數(shù)據(jù)中心價值數(shù)百萬美元的GPU，用于下一工作。增加GPU成本高昂，且數(shù)量有限。因此，首要優(yōu)化目標(biāo)是降低GPU的空閑時間，并在增加容量前消除網(wǎng)絡(luò)擁塞。

在AI集群中，GPU共同學(xué)習(xí)以訓(xùn)練模型。任何影響一個GPU的數(shù)據(jù)包延遲或丟失都可能顯著延長任務(wù)完成時間，因?yàn)槠渌鸊PU將處于空閑狀態(tài)。盡管需要高速網(wǎng)絡(luò)鏈路，但這還不夠。關(guān)鍵在于配置AI網(wǎng)絡(luò)，利用現(xiàn)代以太網(wǎng)網(wǎng)絡(luò)的多種技術(shù)避免擁塞。

新的流量模式

AI數(shù)據(jù)中心的網(wǎng)絡(luò)流量模式與傳統(tǒng)數(shù)據(jù)中心不同。工作負(fù)載分布在數(shù)百或數(shù)千個GPU之間，涉及大量數(shù)據(jù)的發(fā)送和接收。與大小不定的互聯(lián)網(wǎng)流量不同，AI數(shù)據(jù)大小具有有限的隨機(jī)性。AI集群在GPU計算和GPU間共享計算結(jié)果之間經(jīng)歷快速、高頻率的轉(zhuǎn)換。GPU在發(fā)送或等待信息時處于空閑狀態(tài)。流量可能突發(fā)，呈現(xiàn)特定模式，如多個GPU相互發(fā)送數(shù)據(jù)，導(dǎo)致內(nèi)部擁堵。

長尾效應(yīng)

AI網(wǎng)絡(luò)性能衡量的是完成時間最長的流量，而非平均帶寬。這些長尾顯著影響任務(wù)完成時間，進(jìn)而影響GPU利用率。例如，若平均流量完成時間為150毫秒，但一個GPU的最長完成時間為190毫秒，則所有GPU的實(shí)際總體完成時間為190毫秒。詳情見圖1。

圖1. 關(guān)鍵評估指標(biāo)示例

網(wǎng)絡(luò)優(yōu)化中的平衡至關(guān)重要

在此例中，某些GPU獲取數(shù)據(jù)速度遠(yuǎn)快于其他GPU。優(yōu)化的目標(biāo)并非將數(shù)據(jù)盡可能快地移動至特定GPU，而是平衡網(wǎng)絡(luò)，確保所有GPU幾乎同時接收到數(shù)據(jù)，避免空閑。實(shí)際上，這涉及加快慢速流程，減慢快速流程。GPU一旦從彼此處接收到數(shù)據(jù)，即可啟動下一計算周期。這種優(yōu)化網(wǎng)絡(luò)能最大化GPU利用率。

類比來說，就像100顆大理石懸掛在網(wǎng)上，網(wǎng)孔僅比大理石略大。若將所有大理石投入網(wǎng)中，部分會迅速落下，但許多會聚在一起，最后一個落下需時較長。若通過某種通道引導(dǎo)大理石入孔，即使第一個大理石通過時間較長，所有大理石整體通過速度將更快。這里的網(wǎng)孔代表網(wǎng)絡(luò)鏈路，大理石則代表GPU的流量。

相較之下，傳統(tǒng)數(shù)據(jù)中心流量包含許多不同時間發(fā)生的大小不一的流量，連接眾多客戶端。平衡此類流量網(wǎng)絡(luò)鏈路相對簡單，有時甚至能自我平衡。然而，AI流量涉及始終向所有節(jié)點(diǎn)發(fā)送大量流量，平衡難度更大。

何時升級AI網(wǎng)絡(luò)？

AI的運(yùn)營模式已發(fā)生改變

在傳統(tǒng)數(shù)據(jù)中心，當(dāng)鏈路利用率接近50%時，便會考慮升級。而在AI數(shù)據(jù)中心，鏈路利用率可高達(dá)90%。即使所有鏈路速度奇跡般地加倍，鏈路利用率依然會保持在較高水平。

新型以太網(wǎng)網(wǎng)絡(luò)配置

以太網(wǎng)網(wǎng)絡(luò)在現(xiàn)今數(shù)據(jù)中心中占據(jù)主導(dǎo)地位，公司可以對其進(jìn)行優(yōu)化和配置，以支持AI網(wǎng)絡(luò)。構(gòu)建、部署、管理和排查這些網(wǎng)絡(luò)所需的技能，通?？赏ㄟ^內(nèi)部資源或外部承包商和顧問獲得。公司可以利用這些現(xiàn)有技能，為AI配置以太網(wǎng)網(wǎng)絡(luò)，避免擁塞影響GPU利用率。

現(xiàn)代以太網(wǎng)協(xié)議通過優(yōu)先級流量控制（PFC）、顯式擁塞通知（ECN）、數(shù)據(jù)中心量化擁塞通知（DCQCN）和分組噴濺等技術(shù)，管理數(shù)據(jù)中心網(wǎng)絡(luò)的流量和擁塞。讓我們簡要了解這些技術(shù)。

從PFC和ECN開始調(diào)優(yōu)

PFC允許交換機(jī)在其緩沖區(qū)達(dá)到特定閾值時，向上游設(shè)備發(fā)送暫停幀，停止該隊列的流量。這種方法雖可防止數(shù)據(jù)包丟失，但單獨(dú)使用并非最佳解決方案。網(wǎng)絡(luò)可能會運(yùn)行緩慢，隊列頻繁啟停。

ECN則在設(shè)備間提供擁塞通知，使發(fā)送設(shè)備降低流量速率。DCQCN協(xié)調(diào)ECN和PFC的工作。

DCQCN是一種算法，通過在擁塞開始時降低傳輸速率，使ECN能夠管理流量控制，從而減少PFC的持續(xù)時間。調(diào)整DCQCN較為復(fù)雜，還有其他改善AI網(wǎng)絡(luò)配置的途徑。

進(jìn)一步優(yōu)化AI網(wǎng)絡(luò)的選項(xiàng)

在傳統(tǒng)的數(shù)據(jù)中心中，等價多路徑（ECMP）是一種常用的路由策略，它通過平衡網(wǎng)絡(luò)流量來實(shí)現(xiàn)網(wǎng)絡(luò)優(yōu)化。然而，在AI網(wǎng)絡(luò)中，由于單個AI流量可能會占滿整個鏈路，這種策略就會面臨挑戰(zhàn)。對于AI網(wǎng)絡(luò)來說，更有效的方法是在數(shù)據(jù)包級別進(jìn)行網(wǎng)絡(luò)平衡。例如，數(shù)據(jù)包噴濺以及其他形式的負(fù)載均衡技術(shù)，如動態(tài)負(fù)載均衡、基于小單元的路由和確定性路由，可以將數(shù)據(jù)包分散到可用的網(wǎng)絡(luò)鏈路上。與AI集合通信中的流量相比，這些數(shù)據(jù)包體積小，可以顯著提高鏈路利用率。

在硬件層面，遠(yuǎn)程直接內(nèi)存訪問（RDMA）技術(shù)允許兩個服務(wù)器之間的應(yīng)用程序直接交換數(shù)據(jù)，無需經(jīng)過處理器、操作系統(tǒng)、緩存或網(wǎng)絡(luò)內(nèi)核。這意味著應(yīng)用程序可以直接在遠(yuǎn)程服務(wù)器的內(nèi)存上進(jìn)行讀寫操作，無需使用任何服務(wù)器的處理器，從而實(shí)現(xiàn)更快的數(shù)據(jù)傳輸和更低的延遲?；谌诤弦蕴W(wǎng)的RDMA（RoCE）在以太網(wǎng)網(wǎng)絡(luò)中提供了這種機(jī)制。

無損以太網(wǎng)網(wǎng)絡(luò)的構(gòu)建

通過結(jié)合上述技術(shù)和為每種技術(shù)設(shè)置適當(dāng)?shù)膮?shù)，構(gòu)建一個無損以太網(wǎng)網(wǎng)絡(luò)是可行的。無損以太網(wǎng)網(wǎng)絡(luò)的協(xié)議已經(jīng)存在，同時也有工具來提供基準(zhǔn)測試，所需的管理應(yīng)用程序，以及網(wǎng)絡(luò)工程師和架構(gòu)師的知識體系都已完備。

行業(yè)專家們正在為AI開發(fā)新的以太網(wǎng)能力和創(chuàng)新技術(shù)。比如，超以太網(wǎng)聯(lián)盟正在致力于標(biāo)準(zhǔn)化高性能以太網(wǎng)能力，并簡化配置和管理，作為其AI網(wǎng)絡(luò)增長路線圖的一部分。挑戰(zhàn)在于如何在部署前驗(yàn)證設(shè)計和目標(biāo)。

優(yōu)化AI網(wǎng)絡(luò)的新方法

為了提供AI網(wǎng)絡(luò)的測試基準(zhǔn)，需要模擬AI訓(xùn)練的流量模式，并通過能夠模擬GPU和RDMA網(wǎng)絡(luò)接口卡（NIC）的網(wǎng)絡(luò)流量發(fā)生器發(fā)送這些數(shù)據(jù)。GPU支持RDMA NIC，這使得GPU之間的數(shù)據(jù)訪問變得更快捷。

需要模擬的流量類型

系統(tǒng)應(yīng)能夠可重復(fù)地創(chuàng)建由AI集群中集合通信產(chǎn)生的不同數(shù)據(jù)模式和大小的場景。這些流量包括模擬隊列對（Q-pair）連接和流，生成擁塞通知，執(zhí)行基于DCQCN的動態(tài)速率控制，并提供測試吞吐量、緩存管理以及ECMP哈希的靈活性。

工程團(tuán)隊可以使用支持RoCE v2 / RDMA的網(wǎng)絡(luò)流量發(fā)生器，在實(shí)驗(yàn)室或灰度環(huán)境中根據(jù)性能測量結(jié)果對設(shè)計進(jìn)行改進(jìn)，而不依賴于GPU加速卡。一個有效的AI網(wǎng)絡(luò)優(yōu)化解決方案應(yīng)具備定義AI系統(tǒng)配置以模擬工作負(fù)載的靈活性，包括GPU的數(shù)量、NIC的數(shù)量、擁塞控制設(shè)置（如PFC和DCQCN）、數(shù)據(jù)大小、Q-pair特性以及模擬NIC的配置，靈活的配置可以使基準(zhǔn)測試更高效和可重復(fù)。進(jìn)行不同數(shù)據(jù)大小的基準(zhǔn)測試，提供完成時間、算法和總線帶寬等關(guān)鍵性能指標(biāo)的結(jié)果是優(yōu)化AI網(wǎng)絡(luò)的重要步驟，了解單個RoCEv2 Q-pair的統(tǒng)計指標(biāo)細(xì)節(jié)對于排錯和定位也很關(guān)鍵。

結(jié)論

AI數(shù)據(jù)中心網(wǎng)絡(luò)的要求和流量模式與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)有顯著差異。優(yōu)化AI網(wǎng)絡(luò)的范式不同，人們期望網(wǎng)絡(luò)能夠以接近滿載和無損的方式運(yùn)行。一個關(guān)鍵策略是優(yōu)化網(wǎng)絡(luò)以提升GPU利用率。雖然有許多傳統(tǒng)以太網(wǎng)的調(diào)優(yōu)方法，但效果并不直觀、復(fù)雜程度高。

Keysight的工具用于提供基準(zhǔn)測試和優(yōu)化AI網(wǎng)絡(luò)，工具充分利用了現(xiàn)有的數(shù)據(jù)中心工程技能、知識體系和測試方法學(xué)，可以避免手動、耗時的操作。有了這些工具，網(wǎng)絡(luò)架構(gòu)師可以使用Keysight AI（KAI）數(shù)據(jù)中心構(gòu)建器來模擬網(wǎng)絡(luò)負(fù)載和GPU行為，結(jié)合硬件儀表方案，主動識別瓶頸并調(diào)整網(wǎng)絡(luò)配置，調(diào)優(yōu)網(wǎng)絡(luò)性能。從而最終顯著提升GPU利用率——最小化資源浪費(fèi)并大幅降低網(wǎng)絡(luò)GPU的開支。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 是德科技 算力網(wǎng)絡(luò)

評論

相關(guān)推薦

新時代，新視界，是德科技引領(lǐng)軍工電子測試新趨勢

資源下載是德科技軍工電子 | 2016-06-12

安泰測試維修案例分享——武漢某院校是德科技E8267C信號發(fā)生器

設(shè)計方案安泰測試電子測試儀器如何維修是德科技信號發(fā)生器 | 2025-01-03

是德科技推出單機(jī)多通道寬帶毫米波測量解決方案

設(shè)計方案是德科技 | 2023-09-08

示波器并非千篇一律：ADC和低本底噪聲為何至關(guān)重要

測試測量 202411 示波器 ADC 本底噪聲是德科技 | 2024-11-17

【免費(fèi)試用】購買前，先試用！是德科技示波器軟件套件免費(fèi)下載！

白柴 | 2020-09-25

【供應(yīng)商亮點(diǎn)】是德科技與亞德諾攜手推進(jìn)汽車安全技術(shù)

汽車電子是德科技亞德諾 ADI 汽車安全 | 2024-11-08

算力網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)有何不同

智能計算是德科技算力網(wǎng)絡(luò) | 2025-01-03

第五代移動通信中信道測量的技術(shù)挑戰(zhàn)與參考系統(tǒng)

資源下載是德科技 keysight 5G MIMO 毫米波 | 2017-01-09

是德科技FieldFox手持式分析儀配合VDI擴(kuò)頻模塊，實(shí)現(xiàn)毫米波分析功能

測試測量是德科技 FieldFox 手持式分析儀 VDI擴(kuò)頻模塊毫米波分析 | 2024-11-14

瞭望2025全球6G技術(shù)發(fā)展趨勢

手機(jī)與無線通信 6G技術(shù) 是德科技 | 2024-12-23

示波器并非千篇一律：ADC 和低本底噪聲為何至關(guān)重要

測試測量是德科技 ADC | 2024-10-29

5G 候選波形的設(shè)計和評測解決方案

資源下載是德科技 keysight 5G 4G LTE | 2017-01-09

是德科技助力三星電子成功驗(yàn)證FiRa 2.0安全測距測試用例

測試測量是德科技三星電子 FiRa 2.0 安全測距 | 2024-11-18

物聯(lián)網(wǎng)開發(fā)者大會是德科技演講

資源下載是德科技測試 | 2016-12-13

是德科技利用高頻汽車?yán)走_(dá)測試解決方案推進(jìn)自動駕駛安全

設(shè)計方案測試雷達(dá) 汽車是德科技自動駕駛 | 2023-09-19

5G 全頻段MIMO 信道測量參考解決方案

資源下載是德科技 keysight 5G MIMO 測量 | 2017-01-09

武漢某院校是德科技E8267C信號發(fā)生器維修經(jīng)驗(yàn)

安泰測試設(shè)備 | 2019-11-29

（維修案例分享）是德科技E4428C信號發(fā)生器維修

123agitek | 2020-02-20

選型指南-是德科技HD3系列示波器

視頻選型指南，是德科技，HD3系列示波器 | 2024-09-19

偏置范圍高達(dá)±24V的低噪聲示波器探頭

設(shè)計方案示波器探頭是德科技 | 2016-03-25

是德科技擴(kuò)展再生電力系統(tǒng)解決方案，以支持電動汽車和可再生能源系統(tǒng)

測試測量是德科技再生電力系統(tǒng) 電動汽車可再生能源系統(tǒng) | 2024-10-20

是德科技109億收購案，預(yù)計明年4月前完成

測試測量是德科技思博倫收購 | 2024-12-06

是德科技E4428C信號發(fā)生器維修經(jīng)驗(yàn)分享

agitek維修 | 2020-04-22

從燃油車向電動車邁進(jìn)：開啟電動出行的新時代

汽車電子是德科技電動汽車 | 2024-12-30

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)