透視麒麟9010:博采眾長但依舊任重道遠
隨著華為Pura 70系列手機的發(fā)布,兩個半導(dǎo)體器件單元又一次成為萬眾關(guān)注的焦點,相比于圖像傳感器的RYYB技術(shù)變革,麒麟9010顯然受到的關(guān)注更多。作為一款曾經(jīng)有望成為業(yè)內(nèi)第一顆3nm工藝的應(yīng)用處理器,因為美國的全面技術(shù)管制不得不反復(fù)修改其設(shè)計和工藝選擇,最終華為交出了如今這樣水準的麒麟9010著實難得。
本文引用地址:http://cafeforensic.com/article/202404/457968.htm麒麟9010讓我們更好審視麒麟9000S
從熱度上,麒麟9010相比橫空出世的麒麟9000S似乎要小不少,畢竟麒麟9000S是華為被完全管控后獨立推出的第一款麒麟應(yīng)用處理器,不僅肩負著為華為IC設(shè)計能力正名的機會,更要扛起華為消費電子品牌的未來,否則以華為前面一年多選擇驍龍處理器產(chǎn)品帶來的手機業(yè)務(wù)下滑態(tài)勢,曾經(jīng)扛起高端手機國產(chǎn)大旗的華為品牌可能面臨被邊緣化的風(fēng)險。在這樣的內(nèi)憂外困前提下,華為頂著諸多壓力推出麒麟9000S實屬無奈之舉,這也是麒麟9000S諸多要素到現(xiàn)在都沒有披露的重要原因。不過既然該踩的雷和該牽連的隊友都已經(jīng)讓麒麟9000S頂風(fēng)趟出來了,那么麒麟9010面臨的壓力就明顯小了很多,因此諸多媒體似乎終于有機會好好研究一下麒麟9010這款代表華為目前芯片設(shè)計水平的處理器了,這也讓我們可以從它身上好好分析一下華為的移動應(yīng)用處理器設(shè)計思路。
目前在網(wǎng)上能夠看到一些所謂自媒體曝光了麒麟9010的芯片底部刻字,筆者個人認為不靠譜或者只是官方的宣傳圖,畢竟芯片底部刻字標識了生產(chǎn)信息,所謂2035這個被制裁的時間點印在芯片上為了時刻提醒的理由實在牽強。更重要的是,麒麟9010又不外賣,如果想要真的看芯片信息無疑要拆掉PCB上的焊接單元,這對很多自媒體來說似乎要求有些高了。至于從工藝上來說,筆者打聽了一下,應(yīng)該還是跟之前的麒麟9000S一樣的工藝水平,可能在良率方面略有提升,整體成本會稍微下降一些,筆者預(yù)估大概在2%-3%左右吧。這方面筆者說不太透,建議大家觀看TechInsight去年的詳細報告,點到為止不多贅述。從現(xiàn)在的部分功耗測試來說,這個工藝的改進目前也比較有限,因為大核的頻率下來了但處理器功耗并沒有降低多少,從這點上我們可以暫時認為工藝水平保持一致比較合理,這也許是目前非美技術(shù)之外能夠做到的最先進水平了。
說完最基本的工藝,我們還是更關(guān)注性能表現(xiàn)和設(shè)計思路方面的變化。相比于少得可憐的麒麟9000S處理器結(jié)構(gòu),麒麟9010資料倒是相對齊全,各類跑分數(shù)據(jù)也很詳盡。麒麟9010的各種跑分數(shù)據(jù)目前網(wǎng)上可以查到很多版本,內(nèi)核測試的基本情況也大抵相似,我們暫時選擇其中的一些數(shù)據(jù)作為參考基礎(chǔ)進行分析。首先,麒麟9010的結(jié)構(gòu)方面已經(jīng)比較明顯,按照華為一貫命名規(guī)則,麒麟9010應(yīng)該是麒麟9000S的迭代版本,那么基礎(chǔ)結(jié)構(gòu)應(yīng)該是差不多的。根據(jù)目前了解的信息,其大核為一顆2.3GHz的泰山核心,中核為3顆2.18GHz的泰山核心,小核為4顆1.55GHz的A510,GPU是Maleoon 910。從幾個內(nèi)核架構(gòu)以及華為之前麒麟的設(shè)計思路來說,泰山應(yīng)該是Arm V8架構(gòu)基礎(chǔ)上華為自己開發(fā)的內(nèi)核,大小核都是基于Arm V8架構(gòu)在保持架構(gòu)統(tǒng)一性的同時,避免了采用華為無法選擇的Arm V9架構(gòu),從而規(guī)避未來迭代的風(fēng)險。這種設(shè)計風(fēng)格類似于蘋果A系列處理器的內(nèi)核,也是手機處理器中僅有的兩家自行設(shè)計內(nèi)核的廠商。
至于這顆很神秘的Maleoon 910架構(gòu)未知,但從命名規(guī)則猜測似乎有Arm Mali的一些影子,不過海思以前一直用Mali的GPU,而且這顆GPU的優(yōu)化在麒麟9000S里表現(xiàn)實在不太好,很多游戲的適配性并不好,從這點上看似乎跟Mali架構(gòu)并不親近。因此Maleoon 910應(yīng)該是華為自行開發(fā)的GPU架構(gòu),目前看性能表現(xiàn)尚可但GPU最大的問題往往是適配性,這個因為麒麟9000S時很多應(yīng)用還是基于安卓架構(gòu)開發(fā),所以表現(xiàn)不佳也非常能理解,這點我們文末會繼續(xù)深入剖析。
博采眾長:Arm TCS+ Apple Firestorm
1大核+3中核+4小核,麒麟9010這種內(nèi)核布局像極了Arm在2020年開始的TCS移動計算解決方案的全新架構(gòu),雖然華為并不能直接采用Arm的全新內(nèi)核,但處理器布局設(shè)計還是可以借鑒參考的。按照Arm在推出TCS時的介紹,相比于蘋果依然沿用的大小核結(jié)構(gòu),這種三個不同等級內(nèi)核的結(jié)構(gòu)能夠大幅提升處理器的能效,根據(jù)不同任務(wù)需求進行更好地處理資源分配。相比于9000S,麒麟9010目前看處理器最大的改變就是大核的主頻從2.62GHz下降到2.3GHz,但單核的處理能力從1314提升到1442,麒麟9010的IPC值達到了627(作為對比,驍龍8Gen2 IPC值為636。,而驍龍8+ Gen 1 IPC值為578。),相比麒麟9000S的501提升了25%,這意味著在相同的時鐘周期內(nèi),麒麟9010能夠執(zhí)行更多指令,從而實現(xiàn)更高的運算效率和更強的單線程處理能力。IPC的全稱是( Instruction Per Clock,每時鐘周期指令數(shù)),也就是說在同樣的頻率下,IPC越高,CPU干的活越多,當(dāng)然性能就越強。在多核處理器時代,IPC這個指標參考價值更多代表著對復(fù)雜任務(wù)的處理能力。對處理器來說,增加內(nèi)核是提升IPC最簡單粗暴的辦法,但在內(nèi)核數(shù)量一定情況下,提升IPC就只能靠優(yōu)化處理處理線路、架構(gòu)和指令集,或者提升緩存效率等方面。按照Arm對Cortex-X新內(nèi)核的優(yōu)化路線看,每一代的IPC提升在11%-13%左右,如果超過20%那就意味著有明顯的架構(gòu)大幅優(yōu)化,比如X3這個系列因為徹底拋棄32位代碼而實現(xiàn)性能大幅提升。從這個角度看,麒麟9010的大核架構(gòu)優(yōu)化應(yīng)該是上了一個層次,這是一個非常值得期待的突破點。根據(jù)部分數(shù)據(jù)對比,麒麟9010走的是大IPC低主頻策略,因為主頻偏低,所以麒麟9010的大核單核雖然IPC方面擁有巨大提升,但整體性能依然落后當(dāng)前頂級處理器不少。當(dāng)然,主動降低大核主頻,麒麟9010大概是從兩個方面進行了權(quán)衡,其一是對功耗的控制,高主頻意味著高功耗,降低大核主頻有助于控制整體功耗,畢竟9000S的功耗表現(xiàn)并不算出色。雖然按Arm一貫的宣傳口徑,高主頻帶來高處理能力,這可以讓同樣負載量的任務(wù)用更短時間執(zhí)行完成,從而整體功耗會大幅降低。但這種思路的適用性在鴻蒙NEXT系統(tǒng)的結(jié)構(gòu)中實際表現(xiàn)如何,也許需要很長時間才能證明。第二個就是對新架構(gòu)調(diào)整的裕量控制,畢竟調(diào)整架構(gòu)之后的實際表現(xiàn)如何,華為受限于被管制無法充分模擬仿真,為了確保Pura 70系列的用戶體驗,不妨先做個溫柔的主頻設(shè)定看一下大規(guī)模應(yīng)用后的實際效果,如果實際表現(xiàn)達到預(yù)期,那么下一代只需要提升主頻到2.6,就能夠?qū)崿F(xiàn)至少15%的單核性能提升,這樣穩(wěn)扎穩(wěn)打的策略適合鞏固華為手機的市場份額。
圖注: Arm TCS的結(jié)構(gòu)基本就是大中小三種內(nèi)核集成到一個應(yīng)用處理器上,內(nèi)核分配和華為麒麟9010S內(nèi)核基本一致。
圖注:蘋果A14的大核微架構(gòu)和麒麟9010的大核微架構(gòu)一樣,皆為8解碼8發(fā)射的前端寬度,其中ROB深度更是高達630,同時兩者后端的整數(shù)執(zhí)行單元數(shù)量也一樣為6個
如果說麒麟9000S是被美國全面管控后華為處理器設(shè)計思路探索的開路先鋒,那么麒麟9010則給出了華為內(nèi)部探索路線后的一個選擇(當(dāng)然未必以后都是這個方向),那就是選擇和Apple Firestorm(那個性能震驚業(yè)界的M1,A14的大核整數(shù)IPC較麒麟9010的大核高出31%,這主要是工藝受限的原因)一樣的路線——低主頻高IPC。這個選擇意味著什么呢?從瞄準目標上看,意味著麒麟9010處理器瞄準的未來市場更為開闊,更意味著華為對自己的鴻蒙NEXT系統(tǒng)充滿信心。低主頻帶來的是熱損耗降低,高IPC帶來的是單核處理效率更強大,這種設(shè)計更多的是體現(xiàn)了處理器和操作系統(tǒng)之間的默契程度。當(dāng)年蘋果的M1問世第一次讓移動處理器從處理性能方面實現(xiàn)了對桌面處理器的超越,受限于散熱和尺寸,移動處理器的主頻無法跟桌面處理器抗衡,只能大幅修改架構(gòu)提升IPC來追平處理器性能表現(xiàn),當(dāng)然這種性能表現(xiàn)背后的邏輯無疑是封閉的,對于冗余度過高的系統(tǒng)是無法體現(xiàn)優(yōu)勢的,甚至?xí)侠蹖嶋H表現(xiàn)。而蘋果和華為目前的共通點就是一個封閉的生態(tài)系統(tǒng),這是麒麟9010選擇低主頻+高IPC設(shè)計思路的最大支撐。只不過,蘋果的出發(fā)點是要代替英特爾的處理器,而華為的選擇則有很多無奈,比如無法選擇更新的Arm V9架構(gòu)導(dǎo)致處理器主頻提升受限,比如無法選擇先進的工藝降低功耗所以只能靠降低主頻減少熱損耗,比如芯片內(nèi)傳輸接口傳輸?shù)乃俣纫矡o法做到極致,比如沒有先進封裝無法在封裝方面彌補工藝差距帶來的密度不足……
綜合來說,麒麟9010的性能該如何定位其實是個比較尷尬的問題,畢竟在工藝、EDA和速率各方面均受限的前提下,麒麟9010性能測試表現(xiàn)出來實際水平略遜于驍龍8 Gen 1的數(shù)據(jù)(2年前),這已經(jīng)是很難得的成就了。從工藝上和架構(gòu)上,麒麟9010大概用三到四年左右差距實現(xiàn)了2年左右的性能差距,對于正常的公司都是值得尊敬的成就,何況是幾乎先進技術(shù)全面受限的華為呢。
Pura 70 還是要看鴻蒙
摩爾定律映射到手機上的迭代速度是多少現(xiàn)在已經(jīng)很難統(tǒng)計,不妨我們按照Arm TCS的性能遞進速度每年10%左右的速度推測,大概三年左右處理器表現(xiàn)更新一代。那么一款兩年前旗艦水平的處理器是否撐得起整機旗艦表現(xiàn)呢?筆者的回答很簡單,看操作系統(tǒng)。
基本上已經(jīng)一統(tǒng)江山的Arm為啥不斷拼命提升移動平臺的整體性能?一方面是為幾個客戶提供持續(xù)保持競爭力的內(nèi)核和解決方案,另一方面也是不斷優(yōu)化自己內(nèi)核IP的設(shè)計以鞏固自身優(yōu)勢并爭奪更多MPU和CPU的市場。從手機器件處理器的性能來看,其實對于95%以上的用戶是明顯過剩的,最近兩年手機市場更新?lián)Q代速率的下滑雖然大部分廠商歸咎于經(jīng)濟下行消費不足的原因,但更主要的原因是旗艦手機的性能足夠其支撐三四年而使用體驗沒有明顯下滑。
選手機不等于選處理器,畢竟我們選購手機的目的不是沒事跑個分互相比較分值高低,而是要感受手機帶來的全方位體驗。在這個大前提下,操作系統(tǒng)和處理器的配合要遠比處理器跑分的性能更代表手機的實際表現(xiàn)。當(dāng)年的麒麟9000為何能夠在性能上實現(xiàn)對同期驍龍的反超,很大程度是華為對UI的優(yōu)化和處理器設(shè)計是同步的,這一點上,安卓系統(tǒng)可怕的冗余和百花齊放的各種UI無疑讓驍龍始終無法像蘋果A系列處理器一樣輕裝上陣。當(dāng)年蘋果的M1芯片強悍的性能表現(xiàn)在Window和IOS上跑分差異可以達到17%以上,說明了封閉系統(tǒng)對硬件性能的激發(fā)作用非常重要,而對麒麟9010來說,鴻蒙系統(tǒng)的加持也許能夠助其彌補在內(nèi)核跑分性能方面的諸多不足。多說一點,基于麒麟9000S的Mate 60在某些游戲和圖形化應(yīng)用上的表現(xiàn)不佳,很大程度上來自于相關(guān)APP對鴻蒙系統(tǒng)兼容性方面需要專門設(shè)計和優(yōu)化,而最近的12306卡頓問題,也是因為該APP是針對安卓設(shè)計的,在鴻蒙OS下優(yōu)化不夠以至于在海量數(shù)據(jù)情況下的體驗不佳。
這也就是華為在Pura系列上另一個值得關(guān)注的變革,華為計劃全面推行鴻蒙NEXT的操作系統(tǒng),并且在過去的一年多時間里一直在跟各個APP開發(fā)者進行基于鴻蒙OS的APP專門設(shè)計開發(fā),比如前段時間的微信和華為之間的問題就是雙方就專門開發(fā)基于鴻蒙OS的微信應(yīng)用之間的探討??梢灶A(yù)見在短期的一兩年內(nèi),這是華為在鴻蒙生態(tài)中最主要的工作,也是徹底告別安卓生態(tài)的必經(jīng)階段。一旦基于鴻蒙專門設(shè)計的生態(tài)軟件APP全部得以實現(xiàn),那么鴻蒙就如現(xiàn)在的IOS一樣,可以更好地管理應(yīng)用程度對處理器資源的調(diào)用,從而實現(xiàn)更高的工作效率,屆時硬件差異在實際體驗中帶給用戶的感受差別將會越來越微小。只是這一步要真的走成了,未來整個移動應(yīng)用生態(tài)也許會產(chǎn)生劇變,一如當(dāng)年淘寶上線免費跨行轉(zhuǎn)賬功能一樣震撼。
思考及期待
麒麟9010作為一款基本透明的處理器,能夠讓我們更好地了解目前華為的設(shè)計實力以及處理器設(shè)計思路。從目前的性能指標上看,麒麟系統(tǒng)的主頻短期內(nèi)可能需要近一步提升以確保單核性能。畢竟對比蘋果A16的2大核3.46GHz和4小核的2.02Hz,以及高通驍龍1個3.3GHz X4 超大核 + 3個3.15GHz A720 大核 + 2個2.96GHz A720 大核 + 2個2.27GHz A520,在主頻方面受限于工藝的表現(xiàn)可能存在不小的差距,即使架構(gòu)優(yōu)化提升了IPC,但畢竟主頻差距過大還是會影響單核處理能力。
另一個問題則是工藝和良率。雖然TSMC的3nm據(jù)說今年會用到A17上,在華為手機國內(nèi)競品方面則最早也要2025年4月才能上市。但是畢竟華為只能用國產(chǎn)工藝,短期內(nèi)等效密度從7提升到5的可能性不會太大,加上3D封裝技術(shù)也存在一些受限情況,那么可能未來兩三年內(nèi)麒麟系列處理器的工藝節(jié)點不太可能形成突破,或者即使有所突破但良率和成本可能無法支撐起P和M全系的用量,從目前工藝的成本和良率方面信息看,Pura系列的高價格有很大一部分是要為工藝投入埋單了。
最近據(jù)說12nm的FDSOI技術(shù)量產(chǎn)了,不知道未來是否國內(nèi)可以參考一下這個特殊工藝,該工藝主要技術(shù)來自于歐洲,雖然12nm似乎應(yīng)用到手機處理器上有點落伍,但如果能夠有更好地工藝手段加成,也許等效密度可以達到7甚至5,而FDSOI技術(shù)在提升頻率方面的優(yōu)勢和平面工藝對封裝的低要求,對麒麟系列來說似乎并非沒有可取之處,如果用到手機處理器……
評論