借助自適應(yīng)計(jì)算迎接更加智能和互聯(lián)的世界
不斷變化和演進(jìn)的 5G、數(shù)據(jù)中心、汽車和工業(yè)等應(yīng)用,要求在保持嚴(yán)苛的電源包絡(luò)的同時(shí),持續(xù)提升計(jì)算能力。隨著人工智能( AI )技術(shù)商用進(jìn)程持續(xù)加速,其成為提升計(jì)算密度的一個(gè)主要因素。
本文引用地址:http://cafeforensic.com/article/202202/431440.htm無論是部署在云端、邊緣還是終端,人工智能推斷都需要更高的處理性能和嚴(yán)格的功耗預(yù)算,因而,人工智能推斷工作負(fù)載,通常都需要專用的人工智能硬件來進(jìn)行加速。
與此同時(shí),人工智能算法的發(fā)展速度,遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)芯片開發(fā)周期的速度。由于先進(jìn)的人工智能模型的快速創(chuàng)新,固定芯片解決方案,如人工智能網(wǎng)絡(luò)的 ASIC 實(shí)現(xiàn),有可能很快就會(huì)被淘汰。
自適應(yīng)計(jì)算是應(yīng)對(duì)上述挑戰(zhàn)的答案
因?yàn)榛谠诋a(chǎn)品制造之后依然可以針對(duì)特定應(yīng)用而進(jìn)行優(yōu)化的自適應(yīng)硬件而打造,自適應(yīng)計(jì)算因而擁有獨(dú)特的價(jià)值。由于優(yōu)化可以在硬件制造完成之后按需進(jìn)行,因此它可以保持與最新的人工智能模型與時(shí)俱進(jìn)金。相反,ASIC 因?yàn)榛诠潭ǖ挠布軜?gòu),一旦制造完成就無法改變。
自適應(yīng)計(jì)算的這種靈活的優(yōu)化能力,可以支持無限次地反復(fù)執(zhí)行。甚至在器件被完全部署到量產(chǎn)環(huán)境后,依然可以進(jìn)行硬件的變更。就像一個(gè)量產(chǎn)型 CPU 可以被用來運(yùn)行一個(gè)新程序一樣,一個(gè)自適應(yīng)平臺(tái)也可以靈活適應(yīng)新的硬件配置,甚至可以在一個(gè)實(shí)時(shí)的生產(chǎn)環(huán)境中。
自適應(yīng)硬件與其它替代方案的對(duì)比
CPU 和 GPU 各自具有其獨(dú)特的能力,非常適合某些任務(wù)。CPU 是需要評(píng)估復(fù)雜邏輯的決策功能的最佳選擇。GPU 是處理高吞吐量但對(duì)時(shí)延要求不高的離線數(shù)據(jù)的最佳選擇。而自適應(yīng)計(jì)算, 則是那些同時(shí)需要高吞吐量和低時(shí)延數(shù)據(jù)處理的最佳選擇,如實(shí)時(shí)視頻流、5G 通信和汽車傳感器融合等應(yīng)用。
自適應(yīng)計(jì)算之所以能夠在保證低時(shí)延的情況下提供高性能,是因?yàn)樗軌驅(qū)崿F(xiàn)領(lǐng)域?qū)S玫募軜?gòu)( DSA ),從而保障特定應(yīng)用在特定領(lǐng)域架構(gòu)上的最佳實(shí)現(xiàn)。相反,CPU 和 GPU 基于固定的、馮-諾依曼的架構(gòu),不允許對(duì)其底層架構(gòu)進(jìn)行針對(duì)特定領(lǐng)域的優(yōu)化。
DSA 也可以使用專用(固定)芯片器件來構(gòu)建,通常被稱為特定應(yīng)用標(biāo)準(zhǔn)產(chǎn)品或ASSP 。但是,在固定 ASSP 中實(shí)現(xiàn) DSA,既有 有優(yōu)勢(shì),也有劣勢(shì)。這里介紹兩種主要的劣勢(shì)。
首先是創(chuàng)新步伐。為了跟上創(chuàng)新步伐,制造商被期望用更短的時(shí)間打造和提供新的服務(wù)。更具體來講,這個(gè)時(shí)間要比設(shè)計(jì)開發(fā)新的固定芯片 DSA 所需的時(shí)間還要短。這就造成了市場(chǎng)的創(chuàng)新需求與企業(yè)設(shè)計(jì)制造 ASSP 所需時(shí)間之間的根本性市場(chǎng)錯(cuò)位。行業(yè)標(biāo)準(zhǔn)改變或其他需求波動(dòng),會(huì)很快導(dǎo)致這些器件過時(shí)。
第二個(gè)考量因素是定制芯片的成本。設(shè)計(jì)與制造獨(dú)特的芯片設(shè)計(jì)(如復(fù)雜的 7nm ASIC)的一次性成本,可能導(dǎo)致數(shù)億美元的非重復(fù)性工程( NRE )成本。隨著器件工藝縮小到 5nm 及更小,預(yù)計(jì)成本還將進(jìn)一步上升。成本的攀升,正在延緩 ASSP 對(duì)先進(jìn)節(jié)點(diǎn)的采用,而這,可能導(dǎo)致其用戶固守過時(shí)低效的技術(shù)。
自適應(yīng)計(jì)算平臺(tái)介紹
自適應(yīng)平臺(tái)都是基于相同的自適應(yīng)硬件( FPGA )而打造,然而,它們所涵括的組件和 技術(shù)遠(yuǎn)遠(yuǎn)超過了芯片硬件和器件本身。自適應(yīng)平臺(tái)包含了一套全面的運(yùn)行時(shí)軟件,軟硬件相結(jié)合為打造高度靈活和高效的應(yīng)用,提供了一種獨(dú)特的能力。
自適應(yīng)平臺(tái)使得自適應(yīng)計(jì)算能夠?yàn)閺V泛的軟件和系統(tǒng)開發(fā)者所使用,并為其打造眾多創(chuàng)新產(chǎn)品奠定了基礎(chǔ)。采用自適應(yīng)平臺(tái)的優(yōu)勢(shì)包括:
● 縮短上市時(shí)間。使用 Alveo? 數(shù)據(jù)中心加速器卡這樣的平臺(tái),可以支持其無需定制硬件,就可以通過專門為特定應(yīng)用加速而打造的硬件構(gòu)建應(yīng)用。而且,僅需將 PCIe 卡連接到服務(wù)器,就可以用現(xiàn)有軟件應(yīng)用程序直接調(diào)用加速庫(kù)。
● 降低運(yùn)營(yíng)成本。與基于 CPU 的解決方案相比,由于計(jì)算密度的提升,基于自適應(yīng)平臺(tái)的優(yōu)化應(yīng)用能大幅提供每節(jié)點(diǎn)的效率。
● 靈活和動(dòng)態(tài)變化的工作負(fù)載。自適應(yīng)平臺(tái)可根據(jù)當(dāng)前需求重新配置。開發(fā)者可以在自適應(yīng)平臺(tái)內(nèi)輕松切換已部署應(yīng)用,使用相同設(shè)備即可滿足不斷變化的工作負(fù)載需求。
● 兼容未來。自適應(yīng)平臺(tái)能不斷進(jìn)行調(diào)整。如果現(xiàn)有應(yīng)用需要新的功能,則可以對(duì)硬件重新編程,以最佳方式實(shí)現(xiàn)這些功能,減少硬件升級(jí)需求,進(jìn)而延長(zhǎng)系統(tǒng)使用壽命。
● 加速整體應(yīng)用。AI 推斷很少單獨(dú)存在。它是更大的數(shù)據(jù)分析與處理鏈條的一部分,往往與使用傳統(tǒng)(非 AI )實(shí)現(xiàn)方案的多個(gè)上游級(jí)和下游級(jí)并存。這些系統(tǒng)中的嵌入式 AI部分得益于 AI 加速,而非 AI 部分也能從加速中獲益。自適應(yīng)計(jì)算的天然靈活性適合為 AI 和非 AI 處理任務(wù)進(jìn)行加速,這被稱為“整體應(yīng)用加速”。隨著計(jì)算密集型 AI 推斷滲透到更多應(yīng)用中,“整體應(yīng)用加速”的重要性也在日益提升。
● 易用性。過去,運(yùn)用 FPGA 技術(shù)需要開發(fā)者構(gòu)建自己的硬件板,并用硬件描述語言( HDL )配置 FPGA。相比之下,自適應(yīng)平臺(tái)則支持開發(fā)者使用自己熟悉的軟件框架和語言(例如 C++、Python、TensorFlow 等),直接發(fā)揮自適應(yīng)計(jì)算的效能。軟件和 AI 開發(fā)者現(xiàn)在也可以直接使用自適應(yīng)計(jì)算,而無需構(gòu)建電路板或成為硬件專家。
不同類型的自適應(yīng)計(jì)算平臺(tái)
根據(jù)應(yīng)用和需求,存在多種類型的自適應(yīng)平臺(tái),包括數(shù)據(jù)中心加速器卡和標(biāo)準(zhǔn)化邊緣模塊。多種平臺(tái)的存在,旨在為開發(fā)所需應(yīng)用提供盡可能最佳的起點(diǎn)。不同的自適應(yīng)平臺(tái)所面向的應(yīng)用類型也十分廣泛,既有自動(dòng)駕駛和實(shí)時(shí)視頻流等時(shí)延敏感型應(yīng)用,也有高度復(fù)雜的 5G 信號(hào)處理和非結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)處理。
自適應(yīng)計(jì)算能夠部署到云端、網(wǎng)絡(luò)、邊緣甚至終端,將最新的架構(gòu)創(chuàng)新帶到單獨(dú)及端到端的應(yīng)用。鑒于存在各種自適應(yīng)平臺(tái),部署位置也可以是多樣化的——從數(shù)據(jù)中心內(nèi) PCIe 加速器卡上的大容量器件,到適用于物聯(lián)網(wǎng)設(shè)備所需終端處理的小型低功耗器件。
邊緣端的自適應(yīng)平臺(tái),包括賽靈思 Kria? 自適應(yīng)系統(tǒng)模塊( SOM ),數(shù)據(jù)中心中的自適應(yīng)平臺(tái)包括 Alveo 加速器卡。Alveo 加速器卡采用行業(yè)標(biāo)準(zhǔn)的 PCIe,為任意數(shù)據(jù)中心應(yīng)用提供了硬件卸載能力。
Kria自適應(yīng)SOM
AI引擎的引入
自適應(yīng)計(jì)算領(lǐng)域最大的創(chuàng)新之一,就是是賽靈思推出的 AI 引擎。
AI 引擎是一種革命性的新方法,其為計(jì)算密集型應(yīng)用提供了前所未有的計(jì)算密度。AI 引擎從根本上說仍然是一個(gè)可配置的塊,但它也可以像 CPU 一樣進(jìn)行編程。AI 引擎不是由標(biāo)準(zhǔn)的 FPGA 處理硬件組成的,而是包含高性能的標(biāo)量和單指令多數(shù)據(jù)( SIMD )矢量處理器。這些處理器經(jīng)過優(yōu)化,用以高效實(shí)現(xiàn)人工智能推斷和無線通信中出現(xiàn)的各種計(jì)算密集型功能。
人工智能引擎陣列,仍然與類似于 FPGA 的、靈活應(yīng)變的數(shù)據(jù)互連相關(guān)接,從而能夠?yàn)槟繕?biāo)應(yīng)用建立高效、優(yōu)化的數(shù)據(jù)路徑。這種計(jì)算密集型的、類似 CPU 的處理元素與類似 FPGA 的互連組合,正引領(lǐng)人工智能和通信產(chǎn)品邁入一個(gè)新時(shí)代。
賽靈思AI引擎架構(gòu)
迎接一個(gè)更加互聯(lián)和智能的世界
從根本上說,自適應(yīng)計(jì)算建立在現(xiàn)有的 FPGA 技術(shù)上,但使其比以往任何時(shí)候都更容易被更多的開發(fā)者和應(yīng)用所接受。軟件和人工智能開發(fā)者現(xiàn)在可以借助這種對(duì)他們來說曾經(jīng)遙不可及的用自適應(yīng)計(jì)算硬件技術(shù),快速打造優(yōu)化的應(yīng)用。
使硬件適應(yīng)特定應(yīng)用的能力,是自適應(yīng)計(jì)算區(qū)別于 CPU、GPU 和 ASSP 的獨(dú)特所在,后者的核心是固定的硬件架構(gòu)。自適應(yīng)計(jì)算允許硬件為應(yīng)用量身定做,從而實(shí)現(xiàn)更高效率,而且如果未來工作負(fù)載或標(biāo)準(zhǔn)發(fā)生變化,其還能夠根據(jù)需求進(jìn)行調(diào)整。
隨著世界變得更加互聯(lián)和智能,自適應(yīng)計(jì)算將繼續(xù)占據(jù)優(yōu)化、加速應(yīng)用的前沿,助力各種各樣的開發(fā)者加速將創(chuàng)意變成現(xiàn)實(shí),讓我們的明天更美好。
評(píng)論