飛思卡爾公司的多核戰(zhàn)略
目前,芯片級的多核處理技術是人們可以預見到的、能顯著提升性能的唯一策略,每一家引領潮流的處理器公司都制定了一項多核戰(zhàn)略。Freescale Semiconductor公司最近也完成了多核戰(zhàn)略的修訂。
公司自從上世紀90年代中期以來,就一直在出售某種類型的多核芯片。Freescale的被廣泛采用的PowerQUICC通信芯片是一種非對稱式的多核處理器,它集成了一個通用型Power架構的內核,該內核內置一個專用的網(wǎng)絡連接加速引擎。這些加速引擎最早于1995年以PowerQUICC通信處理器模塊(CPM)的名字出現(xiàn),其基礎是一個專有的RISC架構。2005年,F(xiàn)reescale用QUICC引擎取代了CPM,該引擎本身包含有多個RISC內核,與CPM實現(xiàn)了后向兼容。
但是,用戶并不能對CPM進行完全的編程。用戶對其進行編程時,只能通過Freescale的應用編程接口(API)來調用數(shù)量有限的、預先編寫好的函數(shù)。更新的QUICC引擎采用了開放式的編程模式。因此,由于定義的嚴格程度不同,2005前的PowerQUICC芯片要么是異質化的多核設計(Power內核加CPM),要么是依靠專用加速器來加強的、傳統(tǒng)的單核設計。不過,PowerQUICC芯片架構的本質特點—在多個異質化的處理單元上運行的分布化的處理—迫使Freescale在很長時間以前,就必須面對非對稱的多處理器以及復雜的片上互連所帶來的挑戰(zhàn)。Freescale也是在多核DSP上實現(xiàn)對稱化處理的先行者之一,在2001年引入了4核MSC8102。MSC8102及其后繼產(chǎn)品都是基于StarCore DSP架構,而非通用的Power架構。
2004年10月,F(xiàn)reescale發(fā)布了MPC8641D,一種基于Power的主控制器,帶有雙32 bit Power e600內核。在那時,原計劃將在05年下半年開始提供MPC8641D的樣品,可惜的是,MPC8641D的開發(fā)被延遲了一年以上,直到07年4季度推出其改版之前,均無望進入批量生產(chǎn)。
在設計下一款多核處理器時,F(xiàn)reescale從這一艱難的經(jīng)驗中汲取了教訓。在2006年6月,F(xiàn)reescale發(fā)布了PowerQUICC III MPC8572E,一種集成了雙重Power e500內核的高度集成化的通信處理器。這種同質化的多核設計支持對稱或者不對稱的處理,集成了硬件加速器和I/O控制器。MPC8572E在去年6月按時交付了樣品,確定于08年2季度投入批量制造。
盡管在設計高性能、高度集成化的處理器方面擁有長期的經(jīng)驗,F(xiàn)reescale在向市場推出雙核的Power芯片(MPC8641D)時仍然遇到了困難。這些困難對未來集成4個或更多Power內核的PowerQUICC設計是有用的經(jīng)驗。現(xiàn)在正是Freescale通過推出新的多核平臺,思考未來的處理能力需求,實施長期多核戰(zhàn)略技術的機遇。
多核平臺的多個部件
Freescale的戰(zhàn)略圍繞著面向通信的技術平臺展開,它包含了未來多核芯片設計所需要的全部部件。主要的部件是一個32bit的通用處理器內核、專用的加速引擎、具有多核處理能力的混合式仿真環(huán)境、多核軟件開發(fā)工具,以及將各個核、I/O控制器、加速引擎和其他的資源連接起來的、新的片上互聯(lián)交互架構。該平臺的唯一一個全新的部件是CoreNet,即片上交換架構。其他的部件都是現(xiàn)有產(chǎn)品的改進版本。
舉例來說,基本的處理器內核是現(xiàn)有的Power e500內核的增強版本,該經(jīng)過增強的內核被稱為Power e500-mc,目前,其自有的L2高速緩沖被放置在一條后端總線上,與其他的e500-mc內核對一個L3緩存進行一致性的分享。除此之外,e500-mc實際上與2001年推出的e500內核并無區(qū)別。自有的L2高速緩存有助于減少內核間在總線上進行的數(shù)據(jù)傳輸,這與共享L2高速緩存的情形截然不同。Freescale正試圖通過在這樣的分層結構中引入一個共用的L3高速緩存,將自用和共用的高速緩存各自的優(yōu)勢結合起來。L3高速緩存的規(guī)模為數(shù)Mbyte。
圖1是Freescale的多核平臺方框圖。代表CoreNet模塊的方框表示一個公共的交叉總線,它實際上是一種“帶有多個地址仲裁器的可擴展的交叉架構”,更多的像一個網(wǎng)格架構那樣運行,但連線密度要低于具有全局點到點連接能力的真正的網(wǎng)格。
圖1 Freescale的多核平臺方框圖
{{分頁}}
值得注意的是,Power e500-mc的功能要比某些其他公司的嵌入式多核設計所用的處理器內核強大得多。Power e500-mc是一種雙向的超標量32bit處理器,F(xiàn)reescale的目標是1.8~2.0GHz范圍的主頻,以及基于絕緣體上硅(SOI)的45nm CMOS工藝。這樣高的時鐘速度能讓e500-mc與Cavium Network 公司采用了4路超標量的、與MIPS公司兼容的64bit通信處理器中的內核展開競爭,后者目前達到了1.0GHz的峰值速度。
Freescale對Power 500-mc的選用,反映了所有多核設計者都必須作出的一個折中選擇:使用數(shù)量較少、功能更強的內核,還是使用數(shù)量較多而功能較弱的內核。Freescale作出選擇時所考慮的一個主要因素,就是能否與現(xiàn)有的PowerQUICC芯片實現(xiàn)后向兼容。為了維持軟件的兼容性,必須采用一個Power內核,而Power架構目前尚沒有4、8或16bit的實現(xiàn)方案。Freescale可以選擇一個更簡單的Power核,例如e200,不過e500擁有高性能網(wǎng)絡連接和通信所額外需要的實力。Freescale的多核平臺也并未排除使用e500-mc之外的其他Power內核,包括功能較弱的e200等內核,或者一起使用的可能性。
CoreNet互連能夠將32個以上的Power e500-mc連接起來,構成完全一致的片上網(wǎng)絡。如此大量的內核確實超越了“多核”的范疇,進入了定義尚不嚴格、最近被稱為“Manycore(很多核)”的層次—雖然它還達不到級別最高的“大規(guī)模并行處理”層次。Freescale的計劃對于一家正在竭力交付其首款同質雙核Power芯片的公司來說,似乎顯得過于野心勃勃。然而,Manycore設計必須在未來的網(wǎng)絡和通信應用中進行競爭。Freescale的戰(zhàn)略反映了在開發(fā)遲遲未能露面的MPC8641D時所獲得的(正反兩方面的)經(jīng)驗。
未來的Freescale芯片將對Power e 500-mc內核進行補充,增添多個硬件加速器,例如QUICC引擎、壓縮/解壓縮引擎、模式匹配引擎和加密引擎。Freescale正在超前地針對32nm以及更高的技術進行規(guī)劃。我們預計,F(xiàn)reescale即將保守地從同質的雙核設計開始,向前發(fā)展。雙核設計可能已經(jīng)為在4核處理器中將雙芯片耦合在一起的架構做好了準備,而該架構的功耗約為30W。
片上網(wǎng)絡必須具備擴展性
CoreNet對于Freescale的多核平臺及其未來的成功而言,是最為關鍵的部件。隨著內核的數(shù)量的增加,傳統(tǒng)多分支總線上的核間總線數(shù)據(jù)傳輸量將很快達到飽和。如果CoreNet獲得成功,則它將幫助Freescale的多核芯片具有與眾不同的鮮明特色。如果CoreNet成為瓶頸,則它將危及Freescale的整個多核戰(zhàn)略。
圖1是未來基于CoreNet的多核通信芯片的一個高度抽象的方框圖。目前Freescale并未公開透露詳細的技術指標。CoreNet有若干重要的特性:首先,它支持同質的和異質的多核設計—對于PowerQUICC類型的通信芯片來說非常重要。其次,它是一種大帶寬的互連,可以支持交換架構上的多種同時出現(xiàn)的對話。第三,它能在每個處理器內核的L2緩存之間保持一致性,并且也與共享的L3高速緩存保持一致性。第四,它允許多個外部存儲控制器同時訪問交換架構,而不至于相互間造成阻塞。第五,CoreNet有多個地址仲裁器和自動緩沖區(qū)。Freescale將CoreNet描述為“自路由器”。這一描述暗示它是一個基于包的片上網(wǎng)絡,在這個網(wǎng)絡上,處理器核、加速器和其他片上資源都擁有一個內部的網(wǎng)絡地址。
專門的網(wǎng)絡傳輸管理是一個重要的功能。與某些其他的多核芯片不同,F(xiàn)reescale的器件將不會被迫留出一個通用存儲器核作為數(shù)據(jù)傳輸?shù)谋O(jiān)管者。所有的Power e500-mc內核都可用于應用處理。數(shù)據(jù)往來的控制將由一個單獨的數(shù)據(jù)路徑資源管理器來負責。Freescale表示,該數(shù)據(jù)路徑管理器具有足夠的靈活性,可以針對不同的應用進行調整。
網(wǎng)絡業(yè)正在鼓吹虛擬化技術,該技術可以通過在單個系統(tǒng)上運行多重調用的操作系統(tǒng),極大地削減成本和功耗。Freescale宣稱,它的多核平臺將具有可配置的內存區(qū)域,因此多個應用程序和操作系統(tǒng)可以同時運行而不會發(fā)生碰撞。
{{分頁}}
軟件開發(fā)的混合仿真
顯而易見,F(xiàn)reescale的新多核通信平臺是一項復雜的工作。Freescale的未來的多核PowerQUICC芯片將在某種程度上與PowerQUICC芯片實現(xiàn)后向兼容。但是,為了讓開發(fā)者能夠充分利用將來更高的集成規(guī)模,F(xiàn)reescale的多核平臺也將更好的開發(fā)工具作為一個關鍵性組成部分。最重要的軟件開發(fā)工具之一,就是Simics,一種由第三方公司Virtutech公司所提供的仿真環(huán)境。Simics也可以讓開發(fā)者運行整個多內核設計的精確的全系統(tǒng)模型,其中包括所有的Power內核、硬件加速器和I/O接口。
在傳統(tǒng)上,軟件開發(fā)者在硬件設計完成前就可以利用仿真器開始編寫其程序。不過,F(xiàn)reescale希望編程者能不僅將Simic用于早期的開發(fā),而且也可以用于整個開發(fā)過程。Simics提供了描述全系統(tǒng)功能的模型,以及對芯片的詳細的描述。它具有先進的調試功能,例如檢查點設定、反向執(zhí)行以及充分的確定性,它還可以在同一時刻阻止所有的處理器內核的執(zhí)行。當然,任何軟件仿真器的缺點都是執(zhí)行緩慢。即使在一個快速的工作站上,Simics的速度也比所仿真的硬件慢約50倍—約等于40MIPS的運算速度。
在Freescale的混合仿真環(huán)境中,Simics的功能模型將是首選,除非開發(fā)者需要精確到周期。在那種情況下,開發(fā)者也可以切換到Freescale模型中,集中關注需要精確到周期的那部分代碼—而不必離開Simics。兩種仿真模型都可以得到高級的片上調試單元和計量模塊的幫助。Simics已經(jīng)可供Freescale的MPC8641D和MPC8572E之用,提供描述2~8個核的模型。
在任何情況下,在PowerQUICC型的芯片上進行多核的編程,都要比針對臺式PC多核處理器的編程工作簡單。Cavium和PicoChip等公司已經(jīng)可以提供擁有12個或更多內核的網(wǎng)絡與通信處理器,而主流的PC市場才剛剛得到它的第一款4核微處理器。
為未來的Manycore時代做準備
Freescale的新多核通信平臺擁有全部的成功元素,而這一戰(zhàn)略的執(zhí)行本身就是挑戰(zhàn)。為了保持在高性能網(wǎng)絡和通信市場上的競爭力,F(xiàn)reescale必須讓其戰(zhàn)略真正得以實施。正如AMD和Intel在其PC處理器業(yè)務方面所發(fā)現(xiàn)的,提高單核時鐘頻率是一個死胡同。多核設計是未來的選擇,而manycore已經(jīng)正式向嵌入式市場進軍。
在過去的兩年中,Cavium已經(jīng)推出了具有與MIPS兼容性的、豐富的網(wǎng)絡處理器產(chǎn)品線,每個芯片上可容納多達16個64bit的內核,而且得到了數(shù)不清的硬件加速器和高速I/O接口的增強。PicoChip數(shù)年來一直在交付其大規(guī)模并行處理器。AMCC最近發(fā)布了一個新的32bit Power 架構內核。ARC International、ARM、MIPS以及Tensilica都在向研發(fā)網(wǎng)絡和通信用芯片的客戶發(fā)放其32bit處理器內核。為了跟上形勢,F(xiàn)reescale必須加快PowerQUICC的發(fā)展。
但是,僅僅在一個芯片上集成大量的處理器內核是不夠的。沒有高效率的片上網(wǎng)絡,相應的瓶頸仍將阻礙處理器、加速引擎、高速緩存、以及其他重要資源的運行。隨著處理器內核的數(shù)量的增長,存儲的一致性也成為一個讓人頭痛的問題。提供足夠高的I/O帶寬,讓芯片能吃飽同樣是一個挑戰(zhàn)。多核軟件開發(fā)的陰影也籠罩在所有的復雜硬件之上,它需要新的編程工具和技術?,F(xiàn)在需要的是遠大的洞察力,而不是針對點源問題的、零碎的解決方案。
我們相信Freescale已開發(fā)出一個堅實的多核平臺。Freescale的戰(zhàn)略包含了一個關鍵部件—CoreNet的片上交換架構—該部件可以促成或者突破這一戰(zhàn)略。最終的檢驗將是能否及時交付與其承諾相一致的集成電路。(本文譯自《微處理器報告》)
參考文獻:
1. Freescale的關于多核通信的白皮書, www.freescale.com/files/32bit/doc/white_paper/ MULTICOREFTFWP.pdf
2. www.freescale.com/webapp/sps/site/overview.jsp?nodeId=0162468rH3bTdG25E4.
評論