一文詳解 Arm 為何能成為適用于各類 AI 工作負載的計算平臺
對于人工智能 (AI) 而言,任何單一硬件或計算組件都無法成為適合各類工作負載的萬能解決方案。AI 貫穿從云端到邊緣側的整個現(xiàn)代計算領域,為了滿足不同的 AI 用例和需求,一個可以靈活使用 CPU、GPU 和 NPU 等不同計算引擎的異構計算平臺必不可少。
本文引用地址:http://cafeforensic.com/article/202412/465432.htm依托于 Arm CPU 的性能、能效、普及性、易于編程性和靈活性,從小型的嵌入式設備到大型的數(shù)據(jù)中心,Arm CPU 已經(jīng)為各種平臺上的 AI 加速奠定了基礎。
就靈活性而言,這對生態(tài)系統(tǒng)大有裨益的三個主要原因是,首先, Arm CPU 可以處理廣泛的 AI 推理用例,其中許多用例通常用于數(shù)十億臺設備,例如當今的智能手機 、云和數(shù)據(jù)中心。不僅如此,除了推理之外,CPU 還經(jīng)常用于技術棧中的數(shù)據(jù)預處理和編排等其他任務。其次,開發(fā)者能夠在更多種類的數(shù)據(jù)格式中運行更廣泛的軟件,而無需構建多個版本的代碼。最后,CPU 的靈活性使之成為加速 AI 工作負載的理想工具。
提供多樣性和選擇,
助力行業(yè)靈活部署 AI 計算
除了 CPU 產品組合外,Arm 計算平臺還包括 GPU 和 NPU 等 AI 加速器技術,許多市場都在將這些技術與 CPU 進行集成。
在移動端領域, Arm 終端計算子系統(tǒng) (CSS) 包含 Armv9.2 CPU 集群 ,并與 Arm Immortalis-G925 GPU 集成,可為各種 AI 用例提供加速功能,包括圖像分割、對象檢測、自然語言處理和語音轉文本等用例。在物聯(lián)網(wǎng) (IoT) 方面, Arm Ethos-U85 NPU 可與需要加速 AI 性能的基于 Arm Cortex-A 的系統(tǒng)一起設計,例如工廠自動化等場景。
此外,除了 Arm 自己的加速器技術外,合作伙伴借助我們的 CPU 靈活定制具有差異化的芯片解決方案。例如,NVIDIA 用于 AI 基礎設施的 Grace Blackwell 和 Grace Hopper 超級芯片均采用了 Arm CPU 和 NVIDIA 的 AI 加速器技術,從而顯著提升 AI 性能。
NVIDIA Grace Blackwell 超級芯片將 NVIDIA 的 Blackwell GPU 架構與基于 Arm Neoverse 的 Grace CPU 相結合。Arm 獨特的產品組合使 NVIDIA 能夠進行系統(tǒng)級設計優(yōu)化,與 NVIDIA H100 GPU 相比,其能耗降低了 25 倍,單個 GPU 性能提高了 30 倍。具體來說,得益于 Arm Neoverse 平臺的靈活性,NVIDIA 能夠實現(xiàn)自有的高帶寬 NVLink 互連技術,并提升 CPU、GPU 和內存之間的數(shù)據(jù)帶寬和延遲。
Arm 致力于通過 Arm 全面設計生態(tài)項目 ,為整個生態(tài)系統(tǒng)注入 AI 加速的機遇。通過該生態(tài)項目,開發(fā)者可以更快訪問 Arm CSS 技術,賦能軟硬件技術進步,以此驅動 AI 和芯片創(chuàng)新,并加快開發(fā)和部署 AI 優(yōu)化的芯片解決方案。
Arm 架構滿足 AI 所需的獨特靈活性
Arm CPU 設計所具有靈活性關鍵在于我們領先的架構。它提供了一個可以與 AI 加速器技術緊密集成的基礎平臺,并支持從 128 位到 2,048 位的各種向量長度,可以在許多不同的數(shù)據(jù)點上輕松執(zhí)行多個神經(jīng)網(wǎng)絡。
Arm 架構的靈活性為整個芯片生態(tài)系統(tǒng)提供了多樣化的定制機會,我們一直都致力于幫助合作伙伴更快地構建自己的差異化芯片解決方案。這種獨特的靈活性也使 Arm 能夠不斷進行架構創(chuàng)新,定期推出關鍵指令和功能來加速 AI 計算,進而惠及整個生態(tài)系統(tǒng),其中 包括領先的芯片合作伙伴,以及在 Arm 計算平臺上構建應用的 2,000 多萬軟件開發(fā)者等。
這一切始于 Armv7 架構,該架構引入了高級單指令多數(shù)據(jù) (SIMD) 擴展,例如 Neon 技術,這是 Arm 首次涉足機器學習 (ML) 工作負載。在過去幾年中,該架構不斷增強,Armv8 中增加了向量點積和矩陣乘法特性,之后在 Armv9 中又引入了 Arm SVE2 和新的 Arm SME 技術 ,為廣泛的生成式 AI 工作負載和用例提高了計算性能并降低了功耗。
與 AI 加速器技術無縫集成
Arm 是 AI 時代的計算平臺,推動了持續(xù)的架構創(chuàng)新,以滿足速度更快、互動性更好和沉浸感更強的 AI 應用的發(fā)展。Arm CPU 作為靈活處理 AI 工作負載的異構計算方法中的一部分,可以無縫增強和集成 GPU 和 NPU 等 AI 加速器技術。
Arm CPU 是處理眾多 AI 推理工作負載的實用之選, 憑借出色的靈活性,它能夠與加速器技術無縫集成,打造更強大、更高性能的 AI 功能, 精準滿足特定用例和計算需求。 對于我們的技術合作伙伴而言,出色的靈活性有助于實現(xiàn)豐富的定制選擇,使他們能夠為 AI 工作負載構建完整的芯片解決方案。
評論