64位MIPS的起源,回顧及展望
第一個(gè)問(wèn)題或者說(shuō)是機(jī)遇(視您的觀點(diǎn)而定)是在試圖實(shí)現(xiàn)較低的每指令周期(CPI)時(shí)認(rèn)識(shí)到大量高速緩存的重要性,因?yàn)閷?duì) CPI 降級(jí)起最大作用的是由高速緩存故障所引起的處理器失速??山邮艿淖畹透咚倬彺娲笮〖s8 Kbytes,分別用于指令和數(shù)據(jù),表明這些高速緩存在 R2/3000 系列處理器中均是外部的。然而,CPI 當(dāng)然不會(huì)是整個(gè)決定因素??傮w計(jì)算吞吐量是 IPC(1/CPI)和頻率的乘積,而在 R2/3000 家族中,處理器頻率受限于這些相同外部高速緩存的訪問(wèn)速度。將內(nèi)部高速緩存和外部高速緩存的最高頻率和最大高速緩存大小的頻率與 IPC 乘積繪制成圖,使我們能夠迅速評(píng)估相關(guān)的折衷方法。從圖上來(lái)看,由于 CPI 改進(jìn)在 32 Kbyte 之上趨于平緩,但是性能改進(jìn)因頻率增加而繼續(xù)呈線性發(fā)展,因而它非常有利于集成高速緩存。在采用 1.0 微米技術(shù)的 R4000 中,我們最后以 8 KByte 指令與數(shù)據(jù)高速緩存而告終。
一旦集成了高速緩存,就有機(jī)會(huì)通過(guò)將高速緩存訪問(wèn)管道化來(lái)進(jìn)一步提高頻率。甚至有可能在必要時(shí),在地址解碼和陣列存取之間放置管道注冊(cè)器。對(duì)于 R4000,2 周期高速緩存訪問(wèn)可以產(chǎn)生一個(gè) 8 階管道,而 R2/3000 卻只能產(chǎn)生 5 階單周期高速緩存訪問(wèn)。通過(guò) RISC 架構(gòu)開創(chuàng)先河,使用更出色的管道粒度的技術(shù)稱為超級(jí)流水線,后來(lái)在 x86 架構(gòu)實(shí)施中發(fā)揮到極至。雖然這不像高速緩存的使用那么明顯,但是隨著相對(duì)于額外長(zhǎng)度近似線性的增長(zhǎng),加深管道同樣也要使用更多的晶體管。這種線性增長(zhǎng)適用于控制邏輯和數(shù)據(jù)路徑邏輯。
另一個(gè)趨勢(shì)是,通過(guò)廣泛采用 IEEE754 浮點(diǎn)標(biāo)準(zhǔn)及其在 CAD 應(yīng)用、打印以及成像市場(chǎng)中的普遍使用,為硬件浮點(diǎn)的集成提供了更為強(qiáng)大的推動(dòng)力。獨(dú)立支持除法和方根、完全管道化的浮點(diǎn)乘積單位復(fù)雜性約等于整數(shù)單位的復(fù)雜性?,F(xiàn)在對(duì)于浮點(diǎn)來(lái)說(shuō),主導(dǎo)數(shù)據(jù)類型是雙精度,或?yàn)榱藢?shí)現(xiàn)快速實(shí)施而需要 64 位寬數(shù)據(jù)路徑的 64 位浮點(diǎn)。如果要提供帶有數(shù)據(jù)的 64 位浮點(diǎn)單位,則需要數(shù)據(jù)高速緩存的寬度也是 64 位。因此,我們擁有 64 位浮點(diǎn)單位、64 位數(shù)據(jù)高速緩存等等……
最后,根據(jù)操作系統(tǒng)專家觀察,地址位正以一個(gè)速率逐漸被消耗,此速率可以在 R4000 的周期內(nèi)獲得所需的 64 位尋址 ―― 行業(yè)已經(jīng)迫不及待地“消化”了 4、8 和 16 位,并且正忙于“咀嚼”32位。雖然這對(duì) R4000 自身來(lái)說(shuō)并不是一個(gè)極為樂(lè)觀的前景,但是 64 位 MMU 架構(gòu)和指令擴(kuò)展了當(dāng)今幸存 R4000 的開發(fā)范圍,并且成為所有 64 位 MIPS 實(shí)施的基礎(chǔ)。擁有 64 位尋址并不意味著擁有 64 位整數(shù)單位,但是將分段用在 x86 架構(gòu)中的想法對(duì)于 RISC 的支持者來(lái)說(shuō)是十分可怕的,對(duì)于編譯人員和操作系統(tǒng)技術(shù)人員來(lái)說(shuō)尤為如此。
如今,64 位尋址變得越來(lái)越普遍,英特爾和 AMD 最近推出計(jì)算 64 位處理器便是一個(gè)有力的見證。而且,將 64 位用于數(shù)據(jù)處理將沖擊新興的高性能網(wǎng)絡(luò)市場(chǎng)??傊?,對(duì)64位尋址、可輸送 64 位浮點(diǎn)單位的 64 位寬數(shù)據(jù)高速緩存、可輕松擴(kuò)展至后向兼容 64 位架構(gòu)的純 32 位 RISC 架構(gòu)的期待,以及相信最終架構(gòu)能夠長(zhǎng)期立于不敗之地的信心開創(chuàng)了引人注目的前景。64 位 R4000 從此誕生。
就此,Quantum Effect Devices (QED) 公司嶄露頭角。QED 是一家致力于 CMOS VLSI 的 MIPS 計(jì)算機(jī)系統(tǒng)公司,其開發(fā)了一款 MIPS 架構(gòu)的處理器―― R4600。該處理器專門面向嵌入市場(chǎng),并在設(shè)計(jì)方面戰(zhàn)勝了思科、朗訊、Extreme Networks 以及其他眾多的領(lǐng)先網(wǎng)絡(luò)公司。R4600 秉承了 RISC 高速緩存大小不斷提高的傳統(tǒng)(高速緩存成倍增長(zhǎng)),以通過(guò)改善 CPI 及所采用設(shè)備的組合性來(lái)提高高速緩存的效率。充分利用 Microsoft 開發(fā)用于各種嵌入應(yīng)用的WindowsCE,R4600還可以用于當(dāng)代 PVR 的先驅(qū),WebTV 和 EchoStar的機(jī)頂盒中。
同時(shí),QED 開發(fā)了 R4600,而另一個(gè) MIPS 架構(gòu)的授權(quán)方――NEC 則正在開發(fā)其自己的 64 位 MIPS 處理器―― R4300。NEC 的處理器為 Nintendo-64 及惠普的高性能激光打印機(jī)系列提供了強(qiáng)勁的動(dòng)力。
緊隨 R4600/R4300 系列之后,QED 運(yùn)用 SGI 提供的基金,為 NEC 和 IDT 開發(fā)了R5000。R5000 不僅向 R4600 增加了工作站類型的浮點(diǎn),而且再次將高速緩存大小加倍。該款處理器為網(wǎng)絡(luò)與打印市場(chǎng)中的第二代設(shè)計(jì)奠定了堅(jiān)實(shí)的基礎(chǔ)。
0.25 微米新型處理工藝剛剛興起,此時(shí)消耗的晶體管更多。回顧上述分析,隨著高速緩存大小的提高 CPI 改進(jìn)顯示出衰減,您可以看到停止長(zhǎng)度 (stall length) 影響著衰減發(fā)生的位置。如果 DRAM 速度的增長(zhǎng)速率與處理器速度的增長(zhǎng)速率相同,就不會(huì)產(chǎn)生任何影響,因?yàn)樵跍y(cè)定處理器周期時(shí),停止的長(zhǎng)度將保持恒定。由于各種原因,此處不再贅述,DRAM 的速度并不能與處理器的速度保持一致;只有提高 DRAM 的位數(shù)才有助于提高處理速度――摩爾定律表明,只將晶體管的數(shù)量加倍并不能將速度加倍。由于 DRAM 的速度低于處理器的速度,因此工程師們開始構(gòu)建位于處理器外部的二級(jí)高速緩存,這樣可暫時(shí)減輕處理器與 DRAM 之間的速度差異。當(dāng)然,通過(guò)集成二級(jí)高速緩存來(lái)提高性能只是一個(gè)時(shí)間問(wèn)題。在0.25 微米工藝中,可用更經(jīng)濟(jì)地構(gòu)建具有 16 KByte 的主指令與數(shù)據(jù)高速緩存,以及 256 KByte 的二級(jí)高速緩存的處理器。這成為首款帶有集成二級(jí)高速緩存的商用市場(chǎng)微處理器 QED RM7000 的技術(shù)規(guī)范。
除了集成的二級(jí)高速緩存外,RM7000 還包括另一個(gè)增強(qiáng)性能:稱為超標(biāo)量的晶體管使用技術(shù)。在九十年代前五年,超標(biāo)量技術(shù)已經(jīng)過(guò)廣泛測(cè)試并對(duì)其進(jìn)行了報(bào)道,同時(shí)各種等級(jí)的并行指令問(wèn)題的成本/優(yōu)勢(shì)比率得以良好地建立。對(duì)于強(qiáng)大且成本敏感型嵌入式市場(chǎng)來(lái)說(shuō),實(shí)施簡(jiǎn)單的雙路超標(biāo)量流水線是非常合理的,這種流水線能夠以幾乎相同比例的附加硬件與復(fù)雜性提供25%到30%的性能增強(qiáng)。
64 位 RM7000 是首款采用 0.25 微米以及目前的0.18 微米和 0.13 微米技術(shù)構(gòu)建的產(chǎn)品,其已經(jīng)在網(wǎng)絡(luò)和打印機(jī)市場(chǎng)上獲得了巨大的成功,并且有望在不久的將來(lái)進(jìn)軍消費(fèi)市場(chǎng)。
PMC-Sierra 于2000年收購(gòu)了 QED。最新的 64 位 MIPS 處理器是RM9000x2,從“x2”這個(gè)標(biāo)記判斷,它包含了不是一個(gè)而是兩個(gè)均具有集成二級(jí)高速緩存的64位處理器。RM9000x2 主要針對(duì)網(wǎng)絡(luò)基礎(chǔ)設(shè)施市場(chǎng),具有集成的 DDR 內(nèi)存控制器和超高速的 HyperTransportÔ I/O 鏈接。處理器、內(nèi)存和 I/O均通過(guò)分組交叉連接起來(lái)的,可實(shí)現(xiàn)高性能、全面高速緩存的統(tǒng)一芯片系統(tǒng)。除通過(guò)并行處理提高系統(tǒng)性能外,RM9000x2 還通過(guò)將超標(biāo)量與超流水線技術(shù)相結(jié)合來(lái)提高單個(gè)處理器的性能。通過(guò)采用超流水線技術(shù),RM9000x2 核心能夠使用 0.13 微米技術(shù)以 1 GHz 的頻率運(yùn)行。由于過(guò)去10年不斷對(duì)電壓進(jìn)行調(diào)整,因此超流水線技術(shù)已能夠適應(yīng)強(qiáng)大的敏感型嵌入式市場(chǎng)?;叵胍幌?,CMOS 集成電路的功率是由 P = kCV2f 決定的,其中 V 是電源電壓,而 f是操作的頻率,正如超流水線技術(shù)推動(dòng)頻率增長(zhǎng)一樣,電壓調(diào)整仍然可實(shí)現(xiàn)較低的功率。x2 的64 位處理器內(nèi)核將在 PMC 內(nèi)廣泛用于需要高性能處理的解決方案。例如,對(duì) RM7000 系列獨(dú)立處理器以及網(wǎng)絡(luò)、打印機(jī)和消費(fèi)類 ASSP與CSSP 進(jìn)行擴(kuò)展。
評(píng)論