多方位多角度 帶您重新詮釋多核技術(shù)
UltraSPARC T1的 CoolThreads技術(shù)也具有類似的動(dòng)態(tài)轉(zhuǎn)移功能,任何一個(gè)執(zhí)行單元有空余時(shí),都可抓取已排入其他位置的待處理線程加以執(zhí)行,由此維持八個(gè)核心的均衡負(fù)載。
UltraSPARC T1的整合內(nèi)存控制器相當(dāng)強(qiáng)大,它并不是像常規(guī)多核處理器一樣只內(nèi)建1組,而是擁有多達(dá)4組內(nèi)存控制器,每個(gè)控制器都可以支持雙通道ECC DDR2-533MHz內(nèi)存、傳輸位寬達(dá)到144bit。在運(yùn)行過(guò)程中,如果有4bit以下的內(nèi)容錯(cuò)誤,UltraSPARC T1的內(nèi)存控制系統(tǒng)可自行糾正,如果錯(cuò)誤數(shù)量提高到8bit,UltraSPARC T1仍然具備識(shí)別能力,系統(tǒng)可保持長(zhǎng)時(shí)間的穩(wěn)定運(yùn)作。
另外,每組內(nèi)存控制器都可以連接4個(gè)DIMM內(nèi)存槽,因此一枚UltraSPARC T1處理器最多可管理多達(dá)16個(gè)DIMM模組,創(chuàng)造該領(lǐng)域的最高記錄。毋庸置疑,UltraSPARC T1以4組144bit內(nèi)存接口來(lái)對(duì)應(yīng)8核心已經(jīng)是相當(dāng)充足,但SUN提供了更多的選擇。在必要時(shí)候,用戶可以將每?jī)蓚€(gè)控制器捆綁在一起,相當(dāng)于將原本相互獨(dú)立的4組內(nèi)存系統(tǒng)變成兩組可并行存取的結(jié)構(gòu),從而將內(nèi)存系統(tǒng)的傳輸速度提高一倍。倘若系統(tǒng)執(zhí)行的任務(wù)對(duì)數(shù)據(jù)傳輸有很高的要求,開(kāi)啟這項(xiàng)功能將對(duì)系統(tǒng)性能提升起到立竿見(jiàn)影的作用。
而在多路擴(kuò)展方面,UltraSPARC T1采用的是SUN獨(dú)有的JBus高速互聯(lián)總線,JBus 1.0規(guī)格早在2003年4月就發(fā)布,采用128bit位寬的地址/數(shù)據(jù)接口,總線頻率在150MHz-200MHz之間,峰值傳輸速率可達(dá)到 3.1GBps。雖然成就遠(yuǎn)不如AMD的HyperTranspot總線,但JBus的性能同樣可滿足多處理器數(shù)據(jù)交換的要求,畢竟UltraSPARC T1擁有八個(gè)核心和32個(gè)獨(dú)立線程,處理器之間不需要交換太多的數(shù)據(jù)。
除了八核心版本外,SUN公司還將推出較低定位的六核心、四核心UltraSPARC T1,但三者其實(shí)都出自相同的晶圓,只是將存在瑕疵、但關(guān)閉部分內(nèi)核后可正常運(yùn)行的芯片作為六核或四核型號(hào)。令人驚訝的是,UltraSPARC T1非常節(jié)能,在八核心、32個(gè)線程都激活狀態(tài)下的典型功耗僅有72瓦,峰值功耗也只有80瓦,能源利用效率極其出色;另外,UltraSPARC T1還可以通過(guò)關(guān)閉某些核心來(lái)達(dá)到節(jié)能的目的。
當(dāng)然,我們不能簡(jiǎn)單將UltraSPARC T1與X86處理器作直接的對(duì)比,畢竟兩者面向不同的應(yīng)用、設(shè)計(jì)思想迥異。但從UltraSPARC T1中我們可以接觸到另外一種設(shè)計(jì)思想:即根據(jù)特定的應(yīng)用來(lái)設(shè)計(jì)處理器,使得該處理器能夠在既定應(yīng)用中獲得最佳的效能。這種思想在RISC業(yè)界已經(jīng)開(kāi)始風(fēng)行,X86處理器受通用所累,暫時(shí)難以實(shí)現(xiàn)類似設(shè)計(jì),但在未來(lái)我們不排除這種思想被X86業(yè)界借鑒的可能:例如英特爾/AMD可以專門針對(duì)游戲玩家和多媒體娛樂(lè)用戶設(shè)計(jì)出強(qiáng)化浮點(diǎn)性能的娛樂(lè)型處理器,或者設(shè)計(jì)出強(qiáng)化整數(shù)性能、功耗更低的辦公型處理器,這樣辦公用戶不必為自己不需要的浮點(diǎn)性能多掏腰包,娛樂(lè)用戶也能夠獲得性能更出色的產(chǎn)品。而對(duì)英特爾、AMD廠商來(lái)說(shuō),只要設(shè)計(jì)一個(gè)富有彈性的處理器架構(gòu),制造出不同定位的產(chǎn)品并不需要花費(fèi)多少代價(jià)。
專用協(xié)處理器實(shí)現(xiàn)效能跨越
PWRficient的高度整合思想、SUN UltraSPARC T1根據(jù)任務(wù)定制的精簡(jiǎn)核心、多任務(wù)方案令人耳目一新,但這兩者其實(shí)都只是在現(xiàn)有多核架構(gòu)基礎(chǔ)上的革新,處理器本身仍然基于對(duì)等的多核心設(shè)計(jì)。
微處理器領(lǐng)域真正意義的架構(gòu)革命將在未來(lái)數(shù)年內(nèi)誕生,那就是多核架構(gòu)將從通用的對(duì)等設(shè)計(jì)遷移到“主核心+協(xié)處理器”的非對(duì)等設(shè)計(jì),亦即處理器中只有一個(gè)或數(shù)個(gè)通用核心承擔(dān)任務(wù)指派功能,諸如浮點(diǎn)運(yùn)算、HDTV視頻解碼、Java語(yǔ)言執(zhí)行等任務(wù)都可以由專門的DSP硬件核心來(lái)完成,由此實(shí)現(xiàn)處理器執(zhí)行效率和最終性能的大幅度躍進(jìn)—IBM Cell、英特爾Many Core和AMD HyperTransport協(xié)處理器平臺(tái)便是該種思想的典型代表。
下面,我們便從Cell入手,向大家介紹這種極具前途的新穎設(shè)計(jì)。
圖3 Cell處理器基于“PPE主處理單元+SPE協(xié)處理器”的專用化設(shè)計(jì),實(shí)現(xiàn)浮點(diǎn)性能的飛躍。
IBM Cell:開(kāi)創(chuàng)全新的多核架構(gòu)
IBM為索尼PS3游戲機(jī)定制的Cell是一枚擁有9個(gè)硬件核心的多核處理器,它的多核結(jié)構(gòu)同以往的多核心產(chǎn)品完全不同。在Cell芯片中,只有一個(gè)核心擁有完整的功能,被稱為主處理器,其余8個(gè)核心都是專門用于浮點(diǎn)運(yùn)算的協(xié)處理器。其中,主處理器只是PowerPC 970的精簡(jiǎn)版本,其主要職能就是負(fù)責(zé)任務(wù)的分配,實(shí)際的浮點(diǎn)運(yùn)算工作都是由協(xié)處理器來(lái)完成。
由于Cell中的協(xié)處理器只負(fù)責(zé)浮點(diǎn)運(yùn)算任務(wù),所需的運(yùn)算規(guī)則非常簡(jiǎn)單,對(duì)應(yīng)的電路邏輯同樣如此,只要CPU運(yùn)行頻率足夠高,Cell就能夠獲得驚人的浮點(diǎn)效能。而由于電路邏輯簡(jiǎn)單,主處理器和協(xié)處理器都可以輕松工作在很高的頻率上—Cell起步頻率即達(dá)到4GHz就是最好的證明。在高效率的專用核心和高頻率的幫助下,Cell獲得了高達(dá)256Gigaflops(2560億次浮點(diǎn)運(yùn)算每秒)的浮點(diǎn)運(yùn)算能力,接近超級(jí)計(jì)算機(jī)的水準(zhǔn),遠(yuǎn)遠(yuǎn)超越目前所有的X86和RISC處理器。
作為對(duì)比,英特爾的4路Montecito安騰(雙內(nèi)核)系統(tǒng)也僅獲得45Gigaflops的浮點(diǎn)性能。更令人驚訝的是,Cell只花費(fèi)了區(qū)區(qū)2.34億個(gè)晶體管,功耗在80-100瓦左右,能源利用效率比現(xiàn)在設(shè)計(jì)最佳的RISC和X86處理器都高出數(shù)十倍,這足以說(shuō)明Cell專用、多核設(shè)計(jì)思想的優(yōu)越性。
必須提到的是,Cell并非通用的處理器,雖然它具有極強(qiáng)悍的浮點(diǎn)運(yùn)算性能,可很好滿足游戲機(jī)和多媒體應(yīng)用,但整數(shù)性能和動(dòng)態(tài)指令執(zhí)行性能并不理想,這是由任務(wù)的形態(tài)所決定的。未來(lái)耗費(fèi)計(jì)算機(jī)運(yùn)算性能最多的主要是3D圖形、HDTV解碼、科學(xué)運(yùn)算之類的應(yīng)用,所涉及到的其實(shí)都是浮點(diǎn)運(yùn)算,整數(shù)運(yùn)算只是決定操作系統(tǒng)和應(yīng)用軟件的運(yùn)行效能(操作系統(tǒng)、Office軟件等),而這部分應(yīng)用對(duì)處理器性能要求并不苛刻,因此Cell將側(cè)重點(diǎn)放在浮點(diǎn)運(yùn)算性能,與SUN UltraSPARC T1專注事務(wù)處理的設(shè)計(jì)可以說(shuō)有異曲同工之妙。
相較而言,當(dāng)前的X86處理器都采用通用的核心,為了同時(shí)提高整數(shù)性能和浮點(diǎn)性能,CPU核心被設(shè)計(jì)得越來(lái)越臃腫,晶體管消耗越來(lái)越多,不僅導(dǎo)致芯片的功耗急劇增大,頻率提升速度也非常緩慢。而且通用設(shè)計(jì)的另一個(gè)弊病在于,不管執(zhí)行什么任務(wù),芯片內(nèi)的所有邏輯單元都消耗電力,導(dǎo)致X86芯片普遍存在能源利用率低的問(wèn)題。
評(píng)論