大數(shù)據(jù)量進(jìn)一步推動集中式計算
作者/Achronix市場營銷副總裁 Steve Mensor
本文引用地址:http://cafeforensic.com/article/201801/374299.htm近10年來,大家看到集中式計算已實現(xiàn)了大幅的增長,大量數(shù)據(jù)都流向云端以利用其在專用數(shù)據(jù)中心中低成本處理的優(yōu)勢。這是一種似乎與計算領(lǐng)域總趨勢不一致的趨勢,總的趨勢是始于大型機(jī)卻逐漸移向周邊包圍型智能和物聯(lián)網(wǎng)(IoT)。隨著我們進(jìn)入2018年,這種集中化將達(dá)到它的極限。驅(qū)動下一波應(yīng)用所需的數(shù)據(jù)量正在開始推動發(fā)展方向上的改變。
當(dāng)前在企業(yè)生成數(shù)據(jù)中,僅有10%是在集中式數(shù)據(jù)中心之外被生成和被處理的。行業(yè)分析機(jī)構(gòu)Gartner預(yù)測這個數(shù)字將在2022年達(dá)到50%。這是一種必然的反轉(zhuǎn),其推動因素是業(yè)界向超級連通信息物理系統(tǒng)的轉(zhuǎn)變。這一反轉(zhuǎn)將隨著諸如5G無線通信等技術(shù)的到來和新一波面向應(yīng)用的計算硬件浪潮的興起而實現(xiàn)。
物聯(lián)網(wǎng)的第一波浪潮就產(chǎn)出了眾多小型個體性數(shù)據(jù)項目,它們共同在大型數(shù)據(jù)中心中以最有效的方式被聚合和處理。但是隨著物聯(lián)網(wǎng)設(shè)備和越來越多的信息物理系統(tǒng)開始依賴于解讀更大量數(shù)據(jù)流的能力,重心就需要向邊緣轉(zhuǎn)移。
汽車行業(yè)提供了這種轉(zhuǎn)變的一個縮影,而我們將隨之在眾多行業(yè)中看到這種轉(zhuǎn)變。舉例來說,將來自于多輛汽車的GPS數(shù)據(jù)聚集在一起,就實現(xiàn)了交通堵塞的信息采集。再反送回車載單元,就可以引導(dǎo)駕駛員去駕行暢通的路線。數(shù)周的重復(fù)數(shù)據(jù)采集已經(jīng)顯現(xiàn)出更長期的效益。運(yùn)行于數(shù)據(jù)中心的系統(tǒng)已經(jīng)從成千上萬車輛的通行狀況中獲知,在哪些高速的方式運(yùn)轉(zhuǎn)。結(jié)果是更加精確、生動的數(shù)字地圖:所有功能都實現(xiàn)了,而且無需派遣大量的調(diào)查車輛。
在集中式服務(wù)器中維護(hù)數(shù)據(jù)只能走到這么遠(yuǎn)。現(xiàn)在,汽車制造商正快速轉(zhuǎn)向在他們的車輛中構(gòu)建更高等級的自動能力。讓計算機(jī)來控制駕駛的能力可以減少擁堵并縮短出行時間。如今,自動化駕駛員輔助系統(tǒng)(ADAS)大部分都包含智能化功能,由車載攝像頭和雷達(dá)系統(tǒng)所采集的場景信息完全在車輛內(nèi)進(jìn)行處理,這些數(shù)據(jù)中的很小一部分會轉(zhuǎn)發(fā)至汽車制造商的服務(wù)器。轉(zhuǎn)發(fā)的數(shù)據(jù)可以用于更新維護(hù)數(shù)據(jù)庫以幫助實現(xiàn)預(yù)測性維護(hù),以及收集ADAS軟件運(yùn)行情況的統(tǒng)計數(shù)據(jù)。
還有更多可以使用的數(shù)據(jù),但是帶寬和處理能力的限制阻礙了其使用,裝備ADAS系統(tǒng)的車輛每行駛1英里將產(chǎn)生大約10GB數(shù)據(jù)。這些信息會馬上被處理,然后會被快速遺棄;這些數(shù)據(jù)所包含的內(nèi)在信息可能對很多系統(tǒng)都有價值。數(shù)據(jù)太過密集,所以很難傳送至集中式云服務(wù)器。但是,更接近車輛的系統(tǒng)可以使用高速、高性價比的無線網(wǎng)絡(luò),例如專為V2X通信設(shè)計的IEEE 802.11p協(xié)議,以獲取這些數(shù)據(jù)并基于它們做出有依據(jù)的決定。
隨著自主駕駛變得越來越普遍,路邊的信標(biāo)和智能交通信號燈將與行駛的車輛配合以優(yōu)化道路使用。在一個簡單的場景中,通行車輛上的傳輸裝置會使用車聯(lián)網(wǎng)(V2X)將它們遇到的路面情況的數(shù)據(jù)傳遞給路邊信標(biāo)。信標(biāo)本身可以是孤立的,僅以低速方式連接至云端。信標(biāo)可以使用其自身的計算能力來了解路面情況,并將信息傳送給另一個方向的通行車輛,而不必為了將數(shù)據(jù)傳送至云端進(jìn)行處理而遺棄大量的數(shù)據(jù)。
相似地,智能交通信號燈將采集來自于車輛的數(shù)據(jù)和圖像,以有助于確定行人、其他弱勢道路使用者和車輛本身的位置。這將幫助它們的軟件就“它們應(yīng)該在何時變燈以實現(xiàn)最佳交通流量”這一問題做出智能的決策。路邊的信標(biāo)和車輛也將開始互相配合以提供“一目了然”功能,從而通過確定最安全的操作時點來輔助超車和變道等駕駛行為。
隨著自主駕駛等級的提升,對于低延遲、實時響應(yīng)的需求變得更加至關(guān)重要。當(dāng)車輛高速通行時,數(shù)毫秒都很重要。當(dāng)今的無線網(wǎng)絡(luò)可能會有大約數(shù)百毫秒級的雙向延遲,而第五代移動通信(5G)已經(jīng)被重新架構(gòu),以在僅僅1毫秒之內(nèi)對消息做出響應(yīng)。但是這種引人矚目的延遲改進(jìn)需要與數(shù)據(jù)移向云端時所發(fā)生的延遲進(jìn)行比較。
邊緣計算
為了支持毫秒級的響應(yīng)時間,計算資源需要被放置在更接近傳送點的位置,即位于網(wǎng)絡(luò)邊緣的“微云”上。微云所執(zhí)行的處理將包括大量的數(shù)據(jù)分析,這通常基于機(jī)器學(xué)習(xí)技術(shù)。這種將人工智能(AI)技術(shù)推向網(wǎng)絡(luò)邊緣的趨勢,已經(jīng)隨著諸如亞馬遜云計算服務(wù)中的Greengrass(Amazon Web Services’ Greengrass)這樣的創(chuàng)新項目而發(fā)生了。這種服務(wù)原本被開發(fā)用來應(yīng)對物聯(lián)網(wǎng)服務(wù)發(fā)送數(shù)據(jù)到云時,可能出現(xiàn)的無論服務(wù)器資源是否可用都需要AI支持這一情況。
首先,這些機(jī)器學(xué)習(xí)算法的訓(xùn)練將發(fā)生在核心云中,同時邊緣計算系統(tǒng)提供了能夠處理一些推理的任務(wù),這樣也可以減輕云的能量需求。另外,連訓(xùn)練過程也很可能移向邊緣,也還是因為數(shù)據(jù)的重心所致。即使有高比例數(shù)據(jù)壓縮,上傳足夠的數(shù)據(jù)以實現(xiàn)良好的訓(xùn)練往往被證明是不現(xiàn)實的。
本地訓(xùn)練也能使系統(tǒng)為它們所看到的情況、而非一個國家或者全球的平均值來修正自己的行為。智能交通信號燈可以學(xué)習(xí)本地的堵塞模式,或利用通行車輛的燃油效率追蹤來基于本地條件去優(yōu)化它們周邊的交通流量。
為了合理地服務(wù)這些多樣化的、需要快速響應(yīng)的應(yīng)用,微云或者邊緣計算機(jī)不能簡單地只是一個云服務(wù)器的規(guī)??s小版。高性能是必需的,但是它要以一種緊湊、可靠、節(jié)能的形式來提供,這些系統(tǒng)很可能緊鄰像路邊的機(jī)柜一樣小的通信設(shè)備。即使是那些被部署在校園中的系統(tǒng),將無法獲得與核心數(shù)據(jù)中心中的刀片服務(wù)器同等級的支持。
為了實現(xiàn)計算效率最大化,硬件加速技術(shù)將在邊緣計算機(jī)和微云中起到關(guān)鍵作用。在處理諸如實時機(jī)器學(xué)習(xí)等任務(wù)時,多核處理器本身會很慢且能耗很高。一種加速選擇可以是用一個通用圖形處理單元(GPGPU)或視覺處單元(VPU)來增強(qiáng)多核CPU。GPGPU和VPU被用于一些嵌入式系統(tǒng)中,來運(yùn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)分析算法,因為它們擁有高度并行化的浮點運(yùn)算單元,可以為很多并行的神經(jīng)元集合多輸入,而且這種做法比CPU的集群要快得多;即便是高端CPU供應(yīng)商,也已經(jīng)在整合其大規(guī)模并行單指令多數(shù)據(jù)(SIMD)單元(如Intel的AVX512 和ARM的NEON)來彌補(bǔ)這種差距。
強(qiáng)調(diào)GPGPU中浮點運(yùn)算的峰值性能,使得這種架構(gòu)不適合具有能量約束性系統(tǒng),因為GPGPU通常需要將能耗等級維持在150W以上。甚至在機(jī)器學(xué)習(xí)中,使用GPGPU和VPU還會有一些缺點,這類器件的首要設(shè)計目的是加速涉及諸如卷積等操作的2D和3D圖形以及圖像應(yīng)用。它們將自己用于深度神經(jīng)網(wǎng)絡(luò)的卷積層,但是其他類型的操作會引起存儲訪問方面的麻煩。最高池化和全連接層將重點放在虛擬神經(jīng)元之間的數(shù)據(jù)傳輸上,使用了并不適合其存儲結(jié)構(gòu)的訪問模式。更進(jìn)一步的問題是,它們將重點放在了浮點和矩陣運(yùn)算上,使得GPGPU和VPU很難適合那些在邊緣計算機(jī)中需要加速的其他應(yīng)用?;诳删幊逃布翘幚砥鞯慕鉀Q方案則提供了自由度,可以優(yōu)化虛擬神經(jīng)元之間的數(shù)據(jù)傳輸??删幊逃布€提供了自由度以適應(yīng)范圍更廣的、要求邊緣計算機(jī)去執(zhí)行的任務(wù)。
產(chǎn)品及技術(shù)方向
Achronix多年以來一直在為可編程邏輯領(lǐng)域提供創(chuàng)新,在性能、功耗和成本領(lǐng)先性方面樹立了行業(yè)標(biāo)準(zhǔn)。
2013年,Achronix發(fā)布了Speedster22i FPGA系列產(chǎn)品,從而推出了業(yè)內(nèi)最先進(jìn)的FPGA產(chǎn)品,該系列帶有用于高性能有限應(yīng)用的嵌入式系統(tǒng)級知識產(chǎn)權(quán)(IP)產(chǎn)品。Speedster22i系列產(chǎn)品是首款特定應(yīng)用型FPGA芯片,支持了全新的、具有創(chuàng)新性的高性能可編程設(shè)計。
2016年10月,Achronix宣布其可集成至客戶SoC中的Speedcore嵌入式FPGA(eFPGA)IP產(chǎn)品開始供貨;在發(fā)布此消息時,Achronix已經(jīng)向多家客戶交付了Speedcore IP。從那時起,對Speedcore IP的需求空前高漲。Speedcore eFPGA IP是專為人工智能/機(jī)器學(xué)習(xí)(AI/ML)、高性能計算、汽車、5G無線通信和網(wǎng)絡(luò)等應(yīng)用設(shè)計的。它和Speedster22i FPGA基于同一種高性能架構(gòu)。
Achronix的所有產(chǎn)品都得到了我們自己強(qiáng)健的、經(jīng)過驗證的ACE設(shè)計工具的支持。ACE是一款功能強(qiáng)大的EDA工具,可以支持邏輯綜合、布局和布線,還可提供時序收斂和調(diào)試工具。ACE工具可免費(fèi)用于評估。
Achronix最近宣布已完成一款在16nm工藝上驗證了 Speedcore的測試芯片,該芯片采用臺積電(TSMC)的16FFplus-GL工藝制造,擁有11層金屬疊層;其中的一個高性能Speedcore eFPGA內(nèi)核包含40,000個查找表、48個大小為20Kbit的RAM單元塊和72個DSP64單元塊。Achronix正在積極開發(fā)其7nm產(chǎn)品,并計劃也將于近期將該產(chǎn)品推向市場。
中國市場策略
2017年是Achronix取得突破性發(fā)展的一年,公司成為了全球增長速度最快的半導(dǎo)體公司之一。公司在2017年實現(xiàn)了巨大的增長,營業(yè)收入比上年增長7倍且超過1億美元。我們的所有產(chǎn)品都可為中國市場供貨,包括Speedcore、Speedster22i等等,中國是Achronix最重要的市場之一。
Achronix面向全球客戶提供產(chǎn)品和服務(wù),在中國設(shè)有專門的銷售和應(yīng)用工程支持機(jī)構(gòu)。Achronix的客戶橫跨數(shù)個目標(biāo)市場,從人工智能和機(jī)器學(xué)習(xí)到自動駕駛、高性能計算和5G無線通信均有所覆蓋。憑借特定領(lǐng)域的專業(yè)知識和客戶在這些目標(biāo)應(yīng)用上取得的成功,以及強(qiáng)大的工程支持團(tuán)隊,Achronix已經(jīng)完全做好準(zhǔn)備來用自己基于FPGA的硬件加速技術(shù)和產(chǎn)品為中國半導(dǎo)體行業(yè)的快速增長提供鼎力支持。
評論