多方位多角度 帶您重新詮釋多核技術
盡管PWRficient專門針對服務器應用,但它的設計思想對于X86產品仍然十分有借鑒意義。AMD計劃在下一代處理器架構中引入類似的高度整合設計,直接內建PCI Express控制器,以提高系統(tǒng)的數據傳輸性能。事實上,整個芯片組的功能都可以被處理器所整合,這對于芯片組廠商而言顯然不是什么好消息。
除了高度整合設計外,卓越的每瓦性能也是PWRficient處理器的主要賣點之一。PWRficient的核心頻率為2GHz,芯片最高能耗區(qū)區(qū)25瓦,平均運行能耗甚至僅有5W的超低水平。IBM公司將重點放在高性能的Power 5/6和游戲機領域,對低功耗芯片重視不足,PWRficient便不會與IBM的產品有什么沖突。P.A.Semi公司將英特爾Sossaman核心的低功耗型Xeon作為主要對手,盡管Sossaman基于效率出眾的Yonah架構,但它的能源效率遠無法同PWRficient相提并論。
PWRficient 2GHz的實際性能略高于Sossaman Xeon 2.5GHz,但后者的能耗達到73瓦,整整比PWRficient高出兩倍。對服務器系統(tǒng)而言,低功耗芯片的意義不僅在于散熱更佳,最大的好處在于能夠節(jié)約出可觀的運營成本。P.A.Semi公司作出了詳細的對比:如果要構建一套運算速度達到32TFLOPS標準的服務器集群,需要使用6400枚 Sossaman Xeon處理器,連帶配套芯片組、萬兆網卡等組件,整套集群的能耗將達到467200瓦;
而如果轉用PWRficient平臺,只需4000枚芯片就能夠實現相同的性能,由于主要功能都被CPU直接集成,配套的芯片組也變得簡單,整個集群的功耗只有92000瓦,相當于英特爾Sossaman Xeon平臺的1/5,集群的空間占用、散熱系統(tǒng)費用也更為低廉。如果選擇PWRficient平臺,集群系統(tǒng)的運營費用可以被大幅度削減,對本例的 32TFLOPS集群系統(tǒng)而言,就是每年可節(jié)約出至少100萬美元運營費用,PWRficient的優(yōu)勢十分明顯。
PWRficient將采用IBM的65納米SOI工藝進行制造,P.A.Semi公司計劃在下半年推出處理器樣品,2007年正式上市。該芯片的主要銷售對象包括服務器廠商、網絡設備廠商,甚至還包括家電廠商,尤其在刀片服務器和服務器集群系統(tǒng)中,PWRficient具有明顯的優(yōu)勢。但光有優(yōu)秀的產品不足以說明問題,P.A.Semi只是一家小規(guī)模的技術型公司,自身沒有服務器制造和推廣力量,只有獲得服務器廠商的支持才能夠將 PWRficient推向實用化。而對IBM來說,既然沒有更多的精力來開發(fā)低功耗Power芯片,將P.A.Semi收歸旗下不失為一個好選擇。
圖1 PWRficient處理器的邏輯架構,整合了大量的I/O功能,堪稱一款SOC(片上系統(tǒng))型芯片。
精簡核心和超多線程設計
SUN公司在2005年底推出的UltraSPARC T1也是微處理器領域的又一巔峰之作。同PWRficient的高度整合設計不同,UltraSPARC T1的重心放在多任務并行功能,這是由UltraSPARC T1自身的定位所決定的。UltraSPARC T1主要針對承擔網絡中樞的高端服務器系統(tǒng),這類服務器主要面向高吞吐量的事務計算,需要在同時處理大量的并發(fā)任務,而這些任務又都不需要復雜的運算。
因此,SUN公司采用非均衡的思想來設計UltraSPARC T1:每個基本的CPU內核都相當精簡,但都能夠很好地完成相應的數據處理任務,由于精簡核心占據的晶體管資源較少,處理器就能夠集成更多的硬件內核;同時在較單純的數據處理任務中,每個CPU核心的執(zhí)行管線都不會被充分利用,在此基礎上導入多線程技術將能夠進一步提高系統(tǒng)的并行能力。我們可以看到,UltraSPARC T1擁有八個對等的硬件內核,每個內核可同步執(zhí)行4個線程,這樣僅僅一枚處理器就具備同時執(zhí)行32個不同任務的能力。
UltraSPARC T1的晶體管總量只有3億個左右,峰值能耗只有區(qū)區(qū)80瓦,執(zhí)行效率相當出眾。我們必須注意的是,UltraSPARC T1雖然具有超凡的事務處理能力,可它的科學計算能力十分糟糕,原因就在于SUN根據自身特殊的需要,采用不對等的設計。
UltraSPARC T1的CPU核心設計得非常簡單,它的流水線很短,也沒有包含浮點運算單元,只有在八個核心之外附加了一個浮點運算器。這樣每個核心的晶體管占用就很少,為芯片低功耗奠定基礎;UltraSPARC T1的每個核心均只運行在1.2GHz的低頻率下,這也是拜短流水線設計所賜,芯片節(jié)能就不難理解了。UltraSPARC T1的每個核心都擁有16KB一級指令緩存和8KB的一級數據緩存,并具備奇偶檢查能力(Parity Check),可以自行偵測緩存錯誤。
如果數據串中有1bit出現錯誤,緩存自身可對其進行修正,由此保證在苛刻環(huán)境下的運行可靠性。在二級緩存方面,UltraSPARC T1實行八核心共享的機制。由于核心數量眾多,如果繼續(xù)采用獨立緩存設計的話,緩存同步操作需要耗費可觀的運算資源,共享設計顯然是更理想的選擇。但為眾多的核心分配緩存資源也是一個令人頭疼的事情,SUN通過Crossbar連接架構來解決問題:八個核心在Crossbar的統(tǒng)一分配下獲取緩存資源,有效避免了存取沖突。
一個比較特殊的地方就是UltraSPARC T1的二級緩存容量只有3MB,對一枚擁有八個硬件核心的處理器而言似乎少得可憐,但RISC處理器與X86處理器處理的任務迥異,提高緩存容量對X86 處理器的性能影響立竿見影,但UltraSPARC T1面向網絡運算,而這類運算對緩存容量并不十分依賴,起到決定作用的是核心的性能。
多線程支持是UltraSPARC T1的一大亮點。UltraSPARC T1擁有一項名為CoolThreads的多線程技術,該技術令UltraSPARC T1的每個硬件核心都擁有同步執(zhí)行4個線程的能力。這樣,八核心的UltraSPARC T1可以在同一時間運行32個線程,具有超強的多任務處理能力。雖然英特爾的芯片很早就引入HyperTreading超線程功能、允許CPU執(zhí)行兩個線程,但HyperTreading設計僵化,線程一旦進入執(zhí)行位置就無法替換,這樣即便該線程耗費大量的執(zhí)行資源和時間也必須持續(xù)等候。
在不少時候,此舉反而會令系統(tǒng)的效能降低,這也是HyperTreading發(fā)展多年,但始終都沒有獲得廣泛推行的主要原因。而SUN、IBM 等RISC處理器廠商在多線程技術領域有更深厚的實力,如IBM的Power 5系列具備線程動態(tài)轉移功能,在線程運行開始即可對執(zhí)行狀況和資源使用進行實時偵測,如某個線程久拖不完或資源占用高,其余的核心又處于閑置狀態(tài)時便立即將它轉移,同時將運算資源和等候時間撫平,令系統(tǒng)保持卓越的并行執(zhí)行效率。
評論