數(shù)據(jù)中心的加速器正小型化、低功耗化
1 市場呼喚輕量級的數(shù)據(jù)中心加速器 數(shù)據(jù)中心加速器雖然不像機器學習推理加速聽起來那么熱門,卻是非常實用的后端加速的服務,能幫助數(shù)據(jù)中心的客戶節(jié)約大量成本。
本文引用地址:http://cafeforensic.com/article/201908/403477.htm
當前,一方面市場需要更小的加速器,另一方面也需要不僅能加速計算,而且還可加速網(wǎng)絡和存儲,并能兼容第四代PCIe(PCIe Gen 4),具有HBM(高帶寬存儲器),有高速網(wǎng)絡連接等功能。為此,在美國加州圣克拉拉舉辦“閃存峰會(Flash Memory Summit (FMS) 2019”期間,賽靈思祭出了新一代產(chǎn)品Alveo U50加速器卡,展示了其在高速存儲系統(tǒng)加速上的應用。
為此,賽靈思數(shù)據(jù)中心業(yè)務部產(chǎn)品規(guī)劃和市場營銷總監(jiān)Jamon Bowen向電子產(chǎn)品世界等媒體介紹了U50的設計與應用考量。
照片:賽靈思數(shù)據(jù)中心業(yè)務部產(chǎn)品規(guī)劃和市場營銷總監(jiān)Jamon Bowen
Alveo U50是小型化和低功耗產(chǎn)品,可謂業(yè)界首款可以支持第四代PCIe的輕量級自適應計算加速卡,與此前賽靈思Alveo加速器相比,U50的尺寸只有1/8,功耗只有1/3,但性能依然強大,可大幅加速各種不同的關(guān)鍵計算、網(wǎng)絡和存儲工作負載而設計。
? 為何U50的功耗能夠更低、尺寸更小?
這主要是通過HBM來實現(xiàn)的,因為該存儲器技術(shù)不僅僅有高帶寬,同時還可以放在芯片之外,所以這是一種非常核心的技術(shù)。在賽靈思芯片上,有一個控制器能夠和HBM進行對話,通過這種方式不僅可以縮小Alveo的尺寸,而且還能夠提升Alveo的性能,所以歸根到底就是賽靈思芯片技術(shù)的發(fā)展,賽靈思又把這種發(fā)展應用到了新的U50產(chǎn)品中。
2 計算的未來趨勢
下圖是賽靈思的一個合作伙伴開發(fā)的存儲盒解決方案,前端是以太網(wǎng),后端是固態(tài)硬盤(SSD)。這里加速IP和存儲幾乎放在了同一個空間里,所以這非常有意思:沒有CPU了,而是加速器和它的外圍直接連到這個網(wǎng)絡上。
由于未來數(shù)據(jù)中心的驅(qū)動是異構(gòu)計算,所以沒必要和系統(tǒng)連在同一個地方,即執(zhí)行的處理器和高性能的深度學習、存儲和加速等,沒必要進行本地連接,可以做異地連接。
例如金融領(lǐng)域的應用,采用賽靈思U50,能在很短的時間內(nèi)實現(xiàn)從獲取市場的數(shù)據(jù)到最后執(zhí)行交易;與之相比的是CPU,這個時間可能剛剛才能夠進行CPU內(nèi)存的對話??梢奤50方案的速度大大提高了,也預示著未來數(shù)據(jù)中心一種布局的趨勢。
現(xiàn)在Alveo的產(chǎn)品有兩種應用,一種是接X86處理器,還有一種是接存儲。第二種接存儲方案里,也是有一個具體的加速任務,而且另一端也是連著一個服務器,所以U50采用插件式的連接,通過連接服務器來解決其他可能不是通用于FPGA軟件方面的問題。
? U50擴展了Alveo數(shù)據(jù)中心加速卡組合
“Alveo U50進一步擴展了Alveo數(shù)據(jù)中心加速器卡產(chǎn)品組合。”Jamon指出。之前的Alveo U280等主要是計算領(lǐng)域比較強,例如可以利用在一些基因組測序/醫(yī)學領(lǐng)域;U50在計算方面稍微弱一點,但是它在聯(lián)網(wǎng)和存儲方面會更強一些。
回顧一下歷史,Alveo加速器卡是2018年10月首次推出的,當時推出的Alveo U200 和 Alveo U250,同年11月,賽靈思又推出了U280。這三款產(chǎn)品的定位均是數(shù)據(jù)中心和AI,用來大幅提升云端和本地數(shù)據(jù)中心中業(yè)界標準服務器的性能。
再回到Alveo U50卡,U50盡管輕量、小型,但是性能毫不遜色。由于采用賽靈思 UltraScale+?架構(gòu),率先使用半高半長的外形尺寸和低于75 W的低包絡功耗。該卡支持高帶寬存儲器 (HBM2),每秒100G 網(wǎng)絡連接,并支持第四代 PCIe 和 CCIX 互聯(lián)標準。通過支持標準的 PCIe 服務器插槽和僅相當于現(xiàn)有 Alveo 卡1/3的功耗, Alveo U50大幅擴展了自適應加速技術(shù)可以部署的范圍,從而為要求嚴苛的計算、網(wǎng)絡與存儲工作負載帶來了前所未有的高吞吐量與低延時。8GB HBM2 提供了超過 400 Gbps 的數(shù)據(jù)傳輸速度, QSFP端口提供了高達100 Gbps的網(wǎng)絡連接。此外,高速網(wǎng)絡I/O還支持各種前沿應用,如NVMe-oF?解決方案(NVM Express over Fabrics?),解耦計算存儲和專業(yè)金融服務應用。
3 數(shù)據(jù)中心為什么要用加速器?
所有的計算工作負載都是這三個領(lǐng)域:計算、網(wǎng)絡和存儲。Alveo靈活應變的加速技術(shù)也用于數(shù)據(jù)中心的這三個領(lǐng)域。
3.1 為什么要加速?
現(xiàn)在的總體趨勢是越來越多的應用需要領(lǐng)域?qū)S玫募軜?gòu),使得硬件和算法匹配,以達到最佳運行效果或提高運行速度。
具體地,現(xiàn)在網(wǎng)絡上有很多不同的數(shù)據(jù),但是這些數(shù)據(jù)在運行過程中的要求是不一樣的?,F(xiàn)在的網(wǎng)絡可能和下一代網(wǎng)絡不一樣,和下下一代的網(wǎng)絡就更加不同了。所以此時就需要硬件能夠跟上這些領(lǐng)域?qū)S眉軜?gòu)的要求,同時還要提升它的性能,使得硬件能夠發(fā)揮其最優(yōu)的功能。
3.2 為何加速器的運行速度能大幅改善?
若要優(yōu)化性能,首先要有定制的數(shù)據(jù)路徑,還要有定制的精度。此后,應用才能夠非常順利地進行處理,而無需不斷地去進入到一些存儲的層級/去經(jīng)過一些非常復雜的流程,就能夠進行直接的處理。賽靈思在這方面能夠給硬件加速,可以通過再編程的方式來調(diào)整一些設置。
3.3 靈活性和高性能
數(shù)據(jù)中心客戶最大的抱怨是器件編程非常困難,為此,Alveo簡化了硬件編程程序。Alveo有一個非常開放的平臺和環(huán)境。最主要的一些解決方案涵蓋的領(lǐng)域包括數(shù)據(jù)分析、視頻與圖象處理、機器學習、生命科學和金融計算,可見有非常廣泛的客戶和伙伴。賽靈思在上面也加入了很多IP和驅(qū)動來支持合作伙伴和開發(fā)者的有關(guān)活動。
3.4 擴大云的覆蓋面:延伸至邊緣
對于企業(yè)和用戶來說,非常重要的是如果他們要部署一項新技術(shù),就必須要了解有關(guān)上云的途徑,所以賽靈思U50技術(shù)不僅僅支持云,還能夠支持本地;而且這種覆蓋還在不斷的擴張。在中國,BAT(百度、阿里巴巴、騰訊)等都越來越多地采用這種靈活的IP。
而且Alveo的生態(tài)系統(tǒng)是希望能夠開發(fā)一個全堆棧的解決方案,所以自Alveo推出不到一年的時間,現(xiàn)在已經(jīng)有很多的生態(tài)合作伙伴推出了基于Alveo的解決方案,例如自從Alveo于2018年10月推出以來,現(xiàn)已發(fā)布的應用已是那時的2倍,而賽靈思培訓的開發(fā)者已是那時的4倍。
另外,因為賽靈思的產(chǎn)品是非常商業(yè)化的,而且是現(xiàn)成的標準化的產(chǎn)品,包括驅(qū)動,所以能夠調(diào)動整個IT界的積極性,讓他們和Alveo的開源框架進行連接。例如用Alveo的產(chǎn)品可以直接使用Kubernetes和docker的產(chǎn)品。
這是因為Alveo是非常標準化的產(chǎn)品,所以在Kubernetes中可以直接有插件,另外開發(fā)者也可以把Alveo和docker配合起來使用。如果沒有這樣一個標準化的產(chǎn)品配置,客戶可能需要花費大量的投資才能實現(xiàn)這樣一個功能。所以這對于一些超大規(guī)模數(shù)據(jù)中心的應用是非常有必要的,既可以在云端,也可以用Alveo在本地進行加速,而且是一個非常開放式的框架,可以進行全面的加速。
4 U50的應用案例
主要圍繞計算、網(wǎng)絡和存儲三個方面。
4.1 計算/加速
4.1.1 語音翻譯的計算負載
從Alveo U50和CPU、GPU在語音翻譯加速功能的比較來看,Alveo U50最重要的一個實現(xiàn)的特征是它的高吞吐量和低時延的推斷性能,對于這個應用來說,這兩個特點是非常重要的。因為在這個領(lǐng)域當中,用到的機器學習和之前的神經(jīng)網(wǎng)絡使用的是不一樣的,而這正是Alveo U50的優(yōu)勢所在。
如上圖,賽靈思的Alveo U50 和英偉達T4 相比,性能提升高達10倍。
U50能用于很多不同的網(wǎng)絡。機器學習的推斷還要求更低的時延推斷來支持這樣的案例,而且要求硬件能夠支持這樣的推斷,還要離數(shù)據(jù)源非常近。U50的尺寸小,對于需要在同城提供服務數(shù)據(jù)中心的運行也是非常重要的一個解決方案,所以賽靈思U50的小尺寸非常契合需要邊緣計算的用例場景。
4.1.2 數(shù)據(jù)庫分析
主要是用于商業(yè)信息分析的領(lǐng)域。下圖是數(shù)據(jù)庫查詢加速運行的TPC-H Query5體系,主要是一些商業(yè)營銷決定的決策查詢或者咨詢建議。
很多企業(yè)會面臨這樣的決策:他們有一個很龐大的數(shù)據(jù)庫,里面有很多供應商,有很多的產(chǎn)品,也有很多的銷售數(shù)據(jù)。他們需要每個季度要有這樣的決策,需要來了解哪個產(chǎn)品在第一季度例如銷售數(shù)額有多少,其降價策略推銷是否真正有效,所以這是非常重要的一個商業(yè)界經(jīng)常會用到的場景。在這個加速過程當中,會用到很多的標簽節(jié)點,會列出很多有關(guān)的表格,然后進行具體的查詢。在每一個節(jié)點對帶寬的要求都是非常高的,而帶寬又是順利加速的關(guān)鍵節(jié)點。
在這里做了一個比較,采用的是一臺沒有加速的英特爾最先進的多核處理器XEON系列的產(chǎn)品。結(jié)果顯示,U50的處理速度提升高達4倍,而且由于U50卡尺寸非常小,可以使用多張卡的式,如果1張卡能夠達到4倍數(shù),加2張就是8倍,如果加3張就是12倍。因為它的尺寸非常小,所以可以進行多倍數(shù)的加速。
4.1.3 金融
金融界很多地方需要建模,這樣才能定合約和證券的價格。通常是有非常大量的數(shù)據(jù)輸入,之后做幾百萬的模擬,最后得出一個平均值,得到一個結(jié)果的范圍來確定在最糟糕的情況下,它的風險什么樣的。
在此進行對比,相比英偉達第一版GPU和英特爾的CPU,如下圖可見,U50是CPU性能的20倍。另外,U50的成本只有GPU的一半。
U50之所以能夠?qū)崿F(xiàn)這樣高效的加速,因為賽靈思一直在開發(fā)計算庫,尤其是量化的開發(fā)者能夠在Alveo當中使用這些數(shù)據(jù)函數(shù)進行最優(yōu)化的編碼,同時能夠在我們這個平臺上完成其他的應用設計,建立這樣一個模型。這個對于計算加速來說是非常重要的擴展,尤其能夠把所有的數(shù)學函數(shù)都吸收進來。
4.2 網(wǎng)絡案例
? 電子貿(mào)易業(yè)務:網(wǎng)絡中的時延關(guān)鍵型業(yè)務
金融領(lǐng)域是一個完全不同的應用領(lǐng)域,就是要用技術(shù)來支持交易。在這方面,在你獲得關(guān)鍵市場數(shù)據(jù)信息,做出計算,然后做出決定之間,這樣的時間差對于金融界是至關(guān)重要的。所以金融界有從技術(shù)到交易的衡量指標,就是看你獲得市場數(shù)據(jù)之后,直到下單完成交易之間需要花費多長時間。
如果使用賽靈思的U50,就可以在不到500 ns的時間內(nèi),完成過程是:首先收到市場數(shù)據(jù),然后用綜合的C語言來寫一個交易邏輯,再對這樣的交易邏輯進行執(zhí)行和回應。
如果用CPU,第一步首先要從網(wǎng)絡上把這個數(shù)據(jù)放入到界面的接口,然后進行緩存,如果是單向的話,耗時約400 ns。接下來,數(shù)據(jù)進去之后,數(shù)據(jù)的運行環(huán)境首先要發(fā)出信號,說明這個運行環(huán)境發(fā)生了變化。然后這個網(wǎng)絡再把信息進行解碼,從用戶轉(zhuǎn)變?yōu)楹诵?,然后再把它傳輸給需要執(zhí)行交易的部分。而且整個過程需要不斷持續(xù),才能使交易的邏輯轉(zhuǎn)為核心,然后再給其他有關(guān)的各端。而整個過程大概需要10 ms。
U50在時間上是CPU的20倍——U50所有所需時間對于CPU來說僅僅只夠完成將數(shù)據(jù)進入到CPU內(nèi)存層級第一步的時間,而時延在這個領(lǐng)域是非常關(guān)鍵的一個決勝因素。
而且賽靈思加速卡對于整個成本是非常固定的。而且這種應用一般是在證券交易所數(shù)據(jù)中心里,所以U50的小尺寸在這方面擁有非常好的優(yōu)勢,能夠順利接入到這樣的數(shù)據(jù)中心。
由上例可見,若使用Alveo進行加速,能夠在很多網(wǎng)絡端口完成應用的加速,而所需的時間往往是CPU剛開始進行對話的時間,所以對于很多的數(shù)據(jù)中心來說,這是非常重要的。
4.3 存儲
4.3.1 計算存儲
計算存儲現(xiàn)在越來越重要,而且有這樣一個趨勢:讓計算離存儲越來越近。因為現(xiàn)在固態(tài)硬盤使存儲越來越多地能夠?qū)崿F(xiàn)高吞吐量和低時延,在過去由于存儲在這方面存在瓶頸,是不能這樣做的。
如上圖是一個非常典型的存儲工作負載。過去很多字節(jié)都需要一系列傳輸?shù)某绦虿拍苓M行處理,有非常復雜的流程,例如要去壓縮、解壓,還要進行數(shù)據(jù)保護,諸如加密、解密,這里使用的是一個GZIP壓縮吞吐量的指標。
因為每個字節(jié)都要經(jīng)過這樣的流程,所以加速的帶寬至關(guān)重要的。U50的PCIe第四代技術(shù)在這方面大放異彩,可以實現(xiàn)相比CPU 20倍的改善。
4.3.2 整體應用加速
一個典型例子是Hadoop。如果來看Hadoop的大小,首先看數(shù)據(jù),還有查詢數(shù)據(jù)的工作量,它對于帶寬來說提出了很高的要求。如果要做高性能的計算,首先這個數(shù)據(jù)沒法去壓縮,但是這樣的話,基礎(chǔ)設施就需要擴大1倍,而且還需要更多的存儲和存儲帶寬。如果是用U50,就可以非常順利地進行壓縮,而且還可以在高帶寬的環(huán)境下來完成,這樣你就沒有必要選擇到底要進行壓縮,還是保留帶寬,這兩者之間并不是說只能二選一了。因為可以進行壓縮,壓縮之后,所需的存儲空間只有原來的一半,帶寬的需求也只有原來的一半。所以有了這樣的加速之后,我們看到部署的成本可能只有原來的1/2;而且不僅僅可以進行壓縮,同時還可以確保它的性能不會受到影響。
圖:2個雙CPU服務器vs搭載兩個Alveo U50的Alveo服務器
現(xiàn)在看到越來越多的使用單插頭的場景,一個非常好的組合是AMD處理器再加上賽靈思的加速器,來取代CPU雙插頭的組合。
那么一個問題是:壓縮的過程和加速好像是矛盾的方式,壓縮數(shù)據(jù)的流程是賽靈思自己的技術(shù)嗎?Jamon解釋道,上圖左邊這個壓縮僅僅是CPU完成的,在右邊這個壓縮是把數(shù)據(jù)發(fā)送到Alveo內(nèi)部,然后再發(fā)到存儲的設備當中,所以這是由硬件加速的壓縮。所以賽靈思確實是在用Alveo U50做GZIP這樣壓縮的加速。二者相較,有一個是可以通過壓縮來大大提高吞吐量,另一個根本無法進行壓縮,因為速度太慢了。所以如果沒有Alveo U50進行加速,就必須要在成本和吞吐量之間做出選擇,要么不能去壓縮,但是如果有了Alveo U50,就能夠進行非常迅速的加速。
5 與友商相比的優(yōu)勢:靈活應變
異構(gòu)計算應該是數(shù)據(jù)中心的未來,很多公司也在擁抱加速架構(gòu)為核心的解決方案,U50不僅僅能夠提供硬件的加速,而且它還是靈活應變的——因為Alveo不僅僅能做到硬件的加速,而且還是可以編程,可以重新配置。例如GZIP壓縮,但是壓縮的技術(shù)也是日新月異的,發(fā)展很快,例如有ZS、ZT、LZ,還有超大規(guī)模客戶發(fā)布一些新的壓縮算法,還有微軟2019年發(fā)布了Zipline開放標準的壓縮算法。賽靈思的優(yōu)勢是能夠在硬件層面上進行加速,還能夠在硬件層面上實現(xiàn)可編程,如果出現(xiàn)了一些新標準的變化,其他競爭對手都是做不到的。一旦有了新的標準計算算法迭代之后,賽靈思就能夠充分利用 FPGA 的靈活性,在我們平臺上迅速部署。
6 小結(jié)
Alveo U50是Alveo產(chǎn)品系列一個非常重要的擴展,也是首款專門為計算、網(wǎng)絡和存儲打造的自適應加速器,能夠面向任何服務器,為任何云打造。
在性能上與TCO(總擁有成本)方面,U50可以將吞吐量、時延和功耗效率改善很多倍,也是首款用PCIe Gen 4支持HBM2與100 Gbps網(wǎng)絡端口的產(chǎn)品。
此外,賽靈思有不斷壯大的生態(tài)和平臺。
評論