Arm發(fā)布Cortex X4,功耗可降低40%!
來源:EETOP
Arm Cortex-X4,這是該公司的下一代旗艦性能核心,也是迄今為止設計的最高性能Arm核心。
據(jù)了解,新發(fā)布的 Cortex-X4 超大核相比 Cortex-X3 在性能上提升了 15% 左右,但是在能耗方面有比較大的改善,宣稱在相同頻率下可以降低 40% 的功耗。而 A720 作為 A715 性能核心的升級迭代版本,效率提升了 20%。Cortex-A520 相比上代的 Cortex-A510 效率提升 22%。
網(wǎng)上此前已經(jīng)爆出驍龍 8 Gen 3 采用的是 1+5+2 的叢集結(jié)構,其中 "1" 指的是 Cortex-X4 超大核,而 "5" 猜測是 Cortex-A720 性能核心,而 "3" 則是 Cortex-A520 的能效核心,安兔兔跑分更是達到了 160 萬分,相比驍龍 8 Gen 2 提升明顯。而天璣 9300 處理器預計同樣會采用 ARM 發(fā)布的新移動處理器內(nèi)核,性能表現(xiàn)令人期待。
Arm表示,Cortex-X4的前端已經(jīng)發(fā)生了一些重大變化。指令獲取傳遞已經(jīng)被完全重新設計了。與Cortex-A715一樣,Cortex-X似乎也緊隨其后,也完全放棄了宏操作緩沖區(qū)。相反,Cortex-X4拓寬了流水線,支持多達10條指令。指令緩存也得到了相應的增強。帶寬增加到每周期10條指令。
新的分支預測器的準確性也得到了提高,在實際工作負載中觀察到的停滯現(xiàn)象明顯減少。隨著指令高速緩存和宏操作高速緩存的變化,分支預測錯誤的懲罰被統(tǒng)一起來,并減少到10個周期。
后端部分也得到了增強。在執(zhí)行單元的整數(shù)方面,Arm將之前幾代的MUL單元更新為完整的MAC單元。這意味著X4現(xiàn)在有2個整數(shù)MAC單元。還增加了第三個分支單元。最后,還添加了兩個額外的整數(shù)ALU,總共有8個——其中6個位于專用流水線上。
Cortex-X4的亂序緩沖區(qū)從Cortex-X3的320增加了20%,達到了384個。事實上,Arm每一代都會將ROB增加10%至30%左右。從一個角度來看,Cortex-X4的ROB現(xiàn)在比英特爾的Sunny Cove核心更大,后者只有352個條目,盡管遠遠不及令人驚嘆的Golden Cove的512個條目ROB。
在浮點數(shù)方面,Arm對除法器/平方根單元進行了完全流水線化。管道和單元本身保持不變。
在內(nèi)存子系統(tǒng)方面,Arm重新平衡了流水線。以前,Cortex-X3具有兩個通用的地址生成單元(AGU)和一個專用的加載AGU,而現(xiàn)在的Cortex-X4只有一個通用AGU,同時配備了兩個加載AGU和一個存儲AGU。
Cortex-X4上的私有L2緩存也得到了擴大。系統(tǒng)集成商現(xiàn)在可以選擇集成高達2 MiB的L2緩存,這將使L2緩存與上一代相比翻倍。如果需要的話,在更受限制的環(huán)境下,系統(tǒng)設計師可以選擇使用較小的緩存大小。Arm表示,較大緩存不會增加延遲。這個選項可以在具有大內(nèi)存占用的應用程序中實現(xiàn)更高的性能,因為它可以更頻繁地引用靠近核心的內(nèi)存。
總的來說,Cortex-X4在ISO頻率和L3(盡管具有較大的L2緩存)方面提供了約13%的IPC改進。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。