ARM 2023全面運(yùn)算解決方案與新一代GPU架構(gòu) 推動移動運(yùn)算視覺體驗(yàn)升級
由左到右分別為:ARM終端產(chǎn)品事業(yè)部產(chǎn)品管理總監(jiān)Andy Craigen、ARM資深副總裁暨終端產(chǎn)品事業(yè)部總經(jīng)理Chris Bergey、ARM CPU產(chǎn)品管理資深總監(jiān)Stefan Rosinger。ARM
隨著智能手機(jī)已成為串流媒體的主要裝置,加上包括AR、3D手游、以及愈來愈多生成式AI智能技術(shù)的興起,消費(fèi)者對沉浸式體驗(yàn)的追求為移動運(yùn)算平臺催生了比以往更高、更復(fù)雜的運(yùn)算需求。為了滿足各式應(yīng)用需求,ARM日前推出2023全面運(yùn)算解決方案(TCS23),藉由效能與效率的進(jìn)一步提升,再度突破了ARM運(yùn)算平臺的能力極限。
全面運(yùn)算解決方案(Total Compute Solutions;TCS)是ARM專為適用于移動設(shè)備的SoC設(shè)計打造的系統(tǒng)級解決方案,其中涵蓋了CPU、GPU硬件IP、互連與系統(tǒng)IP技術(shù),以及軟件和開發(fā)工具等。在新發(fā)布的2023全面運(yùn)算解決方案(TCS23) 中,最主要的亮點(diǎn)包括:推出基于全新第五代GPU架構(gòu)的旗艦級Immortalis-G720 GPU、效能最強(qiáng)大的ARMv9 Cortex運(yùn)算叢集系統(tǒng),以及增強(qiáng)的系統(tǒng)最佳化技術(shù),將持續(xù)驅(qū)動移動設(shè)備的創(chuàng)新應(yīng)用。
TCS23是ARM專為適用于移動設(shè)備SoC設(shè)計打造的系統(tǒng)級解決方案。ARM
Cortex-X4可提供比Coretex-X3更佳的效能與效率。。ARM
DSU--120新增了不同的電源模式,可進(jìn)一步降低漏電流。。ARM
推升數(shù)碼體驗(yàn) GPU扮演日益重要的角色
ARM專注于GPU開發(fā)已有多年時間,從現(xiàn)今已被廣泛運(yùn)用的Mali GPU,到2022年首度推出支持硬件光線追蹤技術(shù)的Immortalis-G715旗艦級GPU,把移動GPU的效能推升到新的層次。
ARM資深副總裁暨終端產(chǎn)品事業(yè)部總經(jīng)理Chris Bergey表示,對手機(jī)設(shè)計來說,GPU扮演著日益關(guān)鍵的角色,不管是提供出色的視覺體驗(yàn)與提升機(jī)器學(xué)習(xí)(ML) 運(yùn)算,都需要更兼具效能與效率的GPU。
ARM終端產(chǎn)品事業(yè)部產(chǎn)品管理總監(jiān)Andy Craigen補(bǔ)充說,提升繪圖效能對手機(jī)設(shè)計非常重要,ARM已投入大量資源建構(gòu)繪圖平臺。大家都知道繪圖功能非常耗能,即使對桌上型電腦和游戲機(jī)來說也是如此。所以,ARM的重要任務(wù)是要吸引開發(fā)社群,讓他們相信在手機(jī)上也能實(shí)現(xiàn)近似在復(fù)雜的PC上的視覺體驗(yàn),進(jìn)而愿意將其游戲移植至Android移動繪圖平臺。
把光線追蹤技術(shù)導(dǎo)入移動設(shè)備
Chris Bergey指出,自2022年推出Immortalis-G715以來,不管在效能、功耗、面積(PPA)各方面都獲得了業(yè)界的正面回響,開發(fā)社群對于光線追蹤技術(shù)在手機(jī)上的應(yīng)用也展現(xiàn)出高度興趣。
要在手機(jī)上實(shí)現(xiàn)真實(shí)3D影像,如何兼顧效能與功耗需求是一大挑戰(zhàn)。Andy Craigen表示,「由于把PC用的光線追蹤技術(shù)直接搬到移動平臺上不可行,因此ARM花了很多時間分析光線追蹤技術(shù),了解那些功能可帶來最佳效果,并滿足手機(jī)的功耗與芯片面積要求。從2022年首度推出Immortalis-G715以來,我們就展開這個過程,也將會持續(xù)發(fā)展?!?/p>
在2023年初舉行的GDC大會上,ARM與聯(lián)發(fā)科技、騰訊游戲共同展示了應(yīng)用光線追蹤技術(shù)的解決方案。此外,ARM亦積極推動生態(tài)系統(tǒng)對此技術(shù)的了解,協(xié)助他們利用各種資源來開發(fā)游戲,包括Unity等游戲引擎的支持就緒,及其免費(fèi)提供的ARM Mobile Studio開發(fā)工具。
為了展示如何建構(gòu)光線追蹤技術(shù),ARM臺灣團(tuán)隊也嘗試自行開發(fā)游戲?!肝覀兿M璐苏宫F(xiàn)出Immortalis平臺支持3D繪圖的可行性與出色的視覺效果,以及如何能在手機(jī)的功耗預(yù)算內(nèi)實(shí)現(xiàn)」,Chris Bergey說。
推出全新第五代ARM GPU架構(gòu)
為了進(jìn)一步推升GPU效能,實(shí)現(xiàn)更加沉浸的視覺體驗(yàn),ARM日前宣布推出第五代GPU架構(gòu),以及基于此架構(gòu)的全新Immortalis-G720。這是 ARM 歷來效能與效率最高的GPU,與前一代產(chǎn)品相比,效能與效率提升了 15%,而面積僅增加2%,同時存儲器帶寬使用量更大幅降低了40%。
第五代GPU架構(gòu)的主要特點(diǎn)是導(dǎo)入了延遲頂點(diǎn)著色技術(shù) (Deferred Vertex Shading;DVS),透過重新定義GPU中的數(shù)據(jù)流,擴(kuò)展GPU核心數(shù)量,最高可達(dá)16顆核心,以實(shí)現(xiàn)更高效能。
Chris Bergey解釋說,存儲器存取與數(shù)據(jù)移動是影響GPU耗能的主要原因。移動繪圖平臺與桌上型電腦的根本差異是在帶寬使用效率。因此,藉由導(dǎo)入DVS技術(shù),能顯著降低帶寬使用以及對外部DRAM的存取,提高每秒顯示畫面張數(shù)(幀率),使手機(jī)也能支持更復(fù)雜的繪圖工作負(fù)載。
「游戲只是第五代GPU架構(gòu)的其中一個應(yīng)用市場,3D視覺還可為移動設(shè)備帶來更多的應(yīng)用商機(jī),像是AR、電腦輔助繪圖(CAD)設(shè)計等?!?/p>
推動AI與機(jī)器學(xué)習(xí)應(yīng)用于智能手機(jī)上
GPU效能的提升對于增強(qiáng)手機(jī)的AI處理能力也至關(guān)重要。Chris Bergey表示,對移動設(shè)備來說,ARM透過TCS23提供強(qiáng)大、必要的基本運(yùn)算架構(gòu),而客戶能自行在其SoC中針對NPU進(jìn)行差異化設(shè)計。而ARM也會透過與夥伴緊密的合作關(guān)系,持續(xù)提供相關(guān)的支持。
他強(qiáng)調(diào),AI需求透過異質(zhì)運(yùn)算來提高運(yùn)算效能,其中涉及了ML任務(wù)、推論任務(wù)、功耗敏感任務(wù)等不同的運(yùn)算需求。其設(shè)計挑戰(zhàn)在于,需協(xié)助開發(fā)人員對AI進(jìn)行最佳的編程,利用最適切的處理器來執(zhí)行特定任務(wù)。對ARM來說,不只是硬件架構(gòu)的提升與就緒,也需要提供豐富的軟件、應(yīng)用程序支持,并協(xié)助客戶最具效率地把AI編程在通用ARM移動運(yùn)算平臺上,才能真正解決問題。
隨著近來生成式AI等全新的智能應(yīng)用快速興起,ARM亦積極推升手機(jī)的AI處理能力,每兩年增加一倍。此外,透過其開源軟件程序庫,不斷提升ARM IP的機(jī)器學(xué)習(xí)能力,以便支持開發(fā)人員充分運(yùn)用AI與ML工作負(fù)載的優(yōu)勢。Android平臺的Google應(yīng)用程序已在使用ARM NN與ARM Compute Library,目前擁有超過一億的每日活躍用戶,讓開發(fā)人員得以運(yùn)用ARMv9 Cortex-A CPU與ARM GPU,將其在ML工作負(fù)載的執(zhí)行最佳化。
兼顧效能與效率的Cortex-X4核心
在CPU方面,ARM推出第四代Cortex-X 核心Cortex-X4,這是ARM歷來速度最快的CPU,與Cortex-X3相比,效能提高了15%,同時,在相同的制程下,與Cortex-X3相比,全新的省電微架構(gòu)可降低功耗達(dá)40%,而面積僅增加10%,是Cortex-X系列中每毫米效能最高的。
ARM CPU產(chǎn)品管理資深總監(jiān)Stefan Rosinger表示,從圖中可以看出,Cortex-X4與Cortex-X3的功耗對應(yīng)效能曲線,明顯地向右移動。這意味著,在相同的效能下,Cortex-X4可比Cortex-X3帶來顯著的功耗減省?;蚴菗Q句話說,在相同的功耗下,可提供更高的效能。
「Cortex-X系列核心雖然是基于『效能優(yōu)先 』(performance-first)』的理念來設(shè)計的,但對手機(jī)有限的功率預(yù)算來說,推升效能的同時,仍須兼顧效率,才能為客戶帶來真正的價值。不只功耗,Cortex-X4也提升了面積效率,所以能以相同的面積,提供更高的效能,這是Cortex-X4核心設(shè)計上的重要考量?!?/p>
Chris Bergey補(bǔ)充說,手機(jī)有一定的功率預(yù)算,因此必須在兼顧功耗的情況下,來推升效能。藉由高效率的Cortex-X4,客戶能夠把相同功耗下帶來的效能增益,運(yùn)用在AI等其他的更多運(yùn)算上。另外,此曲線是在iso-process同頻比較條件下的結(jié)果,若采用N4或N3制程,取得的效率將更顯著。
此外,Cortex-X4可支持2MB的L2快取,最多可擴(kuò)展至14個核心叢集,以及32MB的L3快取,可提供絕佳效能與多種彈性配置來滿足客戶不同應(yīng)用市場的需求。除了旗艦級智能手機(jī)之外,更高的效能與效率也將能幫助Windows-on-ARM筆記本電腦市場的進(jìn)一步擴(kuò)展。
系統(tǒng)最佳化技術(shù)實(shí)現(xiàn)強(qiáng)大的運(yùn)算叢集系統(tǒng)
除了推出新款CPU與GPU之外,TCS23的另一個重點(diǎn)是提供增強(qiáng)的系統(tǒng)最佳化技術(shù),以提升整體效能。
Chris Bergey表示,開發(fā)GPU時,ARM也把CPU以及系統(tǒng)的運(yùn)作效能納入考慮。以新推出的Immortalis-G720為例,可與CPU共同使用最高達(dá)32MB的系統(tǒng)級快取,根據(jù)工作負(fù)載來進(jìn)行最佳配置。目的是使數(shù)據(jù)都在局部取得,僅量不使用外部DRAM,以降低GPU功耗。
在CPU叢集方面,ARM已將其 DSU(DynamIQ Shared Unit)升級至DSU-120。除了上面提到的14核心擴(kuò)展性與32MB系統(tǒng)快取之外,另一個重點(diǎn)是可提供更多不同的電源模式。
Stefan Rosinger表示,在手機(jī)中,會有Cortex-X、Cortex-A不同的核心,因此可根據(jù)不同的工作負(fù)載,開啟或關(guān)閉特定核心的電源。若以核心電源全開啟為基準(zhǔn),可以看到不同使用情境下,電源節(jié)省的效益。DSU-120新增的電源模式,可以有效節(jié)省芯片的漏電流。
「由于SRAM的微縮腳步跟不上邏輯元件,盡管為了提升效能我們增加了L3快取的容量,但相對的,對功耗也帶來的新的要求。因此,漏電流的節(jié)省也成為不可忽視的議題?!?/p>
展望未來 邁向異質(zhì)整合時代
在未來幾年內(nèi),ARM將繼續(xù)開發(fā)下一代包括Krake GPU和Blackhawk CPU等關(guān)鍵IP,以滿足合作夥伴對于運(yùn)算與繪圖效能不斷成長的要求。
然而,隨著芯片即將面臨2納米制程的微縮極限,朝向3D堆疊與先進(jìn)封裝技術(shù)來延續(xù)半導(dǎo)體技術(shù)發(fā)展,已成必然趨勢。對于針對SoC設(shè)計者提供IP的ARM來說,會帶來那些影響與轉(zhuǎn)變呢?
Chris Bergey表示,當(dāng)制程微縮趨近極限時,必須對效能、功耗與面積的權(quán)衡有更仔細(xì)的考量,才能順應(yīng)制程推進(jìn),協(xié)助客戶取得最大效益。隨著半導(dǎo)體產(chǎn)業(yè)進(jìn)入3D堆疊與先進(jìn)封裝技術(shù)時代,就要以系統(tǒng)角度來思考并區(qū)隔設(shè)計,為客戶提供最佳的解決方案,例如把SRAM停留在成熟制程,運(yùn)算核心采用先進(jìn)制程等。在這過程中,與臺積電的密切配合至關(guān)重要。藉由深入了解他們的制程技術(shù),才能就此開發(fā)出更適切的解決方案。
他指出,采用異質(zhì)整合的先進(jìn)封裝元件未來也將進(jìn)入移動市場。ARM將順應(yīng)此趨勢,持續(xù)在「超越摩爾定律(More than Moore)」時代勝出。市場對于運(yùn)算的需求時無止境的,而以ARM為基礎(chǔ)的未來仍將充滿無限可能性!
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。