浪潮研成處理器協(xié)同芯片組 使西方禁運失去意義
中國已經(jīng)掌握了國際領先的32路高端容錯計算機的核心技術,浪潮正在開發(fā)性能更高、可靠性更強的64路系統(tǒng)高端容錯計算機系統(tǒng),也將進一步拓展應用規(guī)模。天梭K1的目標市場份額是30%以上,同時把自主化進程向更深層次推進。
本文引用地址:http://cafeforensic.com/article/268042.htm在國外嚴密的技術封鎖和產(chǎn)業(yè)鏈高度壟斷的情況下,浪潮依靠自主創(chuàng)新在高端容錯計算機體系結構、操作系統(tǒng)、處理器協(xié)同芯片和硬件系統(tǒng)方面實現(xiàn)重大技術創(chuàng)新與突破,從無到有建立起高端容錯計算機技術體系,并開創(chuàng)了高端容錯計算機產(chǎn)業(yè)。
浪潮在高端容錯計算機領域的主要技術突破可以概括為一個“211工程”:“2項核心技術”——體系結構和容錯技術體系;“1個核心部件”——處理器協(xié)同芯片組;“1個操作系統(tǒng)”——K-UX。同時,在研制天梭K1的過程中,浪潮共申請發(fā)明專利1147項,目前獲得授權100多項。
跨過“8”的門檻
高端容錯計算機不僅可以通過處理器升級來獲得性能提升,還可以通過增加處理器數(shù)量來提高性能,但是當處理器數(shù)量超過8顆,就會碰到“內(nèi)存墻”的問題。浪潮集團首席科學家王恩東表示,處理器要協(xié)同工作,相互之間必然要通訊,而且處理器之間不僅要進行數(shù)據(jù)傳遞,更要保持數(shù)據(jù)一致,任何數(shù)據(jù)異步都可能會造成系統(tǒng)停機,這使得處理器通訊遠比一般性的通訊技術更為復雜。如果采用一般的處理器協(xié)同技術,當處理器數(shù)量超過8顆以后,大量的處理器資源都被通訊占用,繼續(xù)增加處理器數(shù)量時,性能提高就會十分有限。其直接的技術表現(xiàn)就是處理器讀取內(nèi)存數(shù)據(jù)延時過長,這個現(xiàn)象在專業(yè)領域被稱為“內(nèi)存墻”。
要破解天梭K1 面臨的“內(nèi)存墻”問題,只能創(chuàng)建一個全新的處理器互聯(lián)結構和通訊機制。這是業(yè)界幾十年來一直難以破解的難題,全球具有該項技術開發(fā)能力的公司不到5家。天梭K1有32顆處理器、256個內(nèi)存插槽,已經(jīng)遠遠超過了初始的技術瓶頸。浪潮還創(chuàng)建了“三級目錄兩級緩存一致性域協(xié)議”,保證處理器數(shù)量增加時,系統(tǒng)通訊規(guī)模和復雜度僅有較小增加。
浪潮基于上述自主的體系結構技術,研制成功處理器協(xié)同芯片組,讓瓦森納組織對中國的高端容錯計算機技術禁運失去了意義。處理器協(xié)同芯片是計算機中唯一復雜度可與處理器相比的芯片部件。浪潮研制的芯片組集成了4.5億個晶體管,有2577根管腳,在中國集成電路產(chǎn)業(yè)沒有設計生產(chǎn)如此規(guī)模芯片的先例的情況下,該芯片達到了國際領先水平:支持64路處理器互連;報文處理能力40億條/秒;聚合帶寬達到1056Gbps;延遲小于200納秒。
軟硬一體的容錯技術實現(xiàn)99.9994%高可用
高端容錯計算機是專門承擔關鍵應用系統(tǒng)的系統(tǒng)平臺,一旦出現(xiàn)停機事故,將會嚴重傷害客戶業(yè)務,甚至在社會經(jīng)濟層面造成影響。因此,能夠提供99.999%的高可用性,可以7×24小時不間斷運行是高端容錯計算機最基本的應用需求。
天梭K1也必須對各類故障、隱患以及外部不利因素作充分的考慮。從可用性的角度看,研制高端容錯計算機就像用積木來搭一個摩天大廈,必須開發(fā)出一套完整的容錯技術來消除每個可能出現(xiàn)的問題,保證系統(tǒng)運行的連續(xù)性。高端容錯計算機大約有幾十萬個電子器件,目前品質(zhì)最高的工業(yè)級電子器件平均無故障時間在10000小時左右。另外,高端容錯計算機的BIOS等底層代碼有幾千萬行。最權威的Coverity Analysis集團數(shù)據(jù)顯示,目前企業(yè)軟件的缺陷密度為0.72,也就是說平均每1000行代碼中會有0.72個缺陷,而任何一處不良代碼都是潛在的隱患。
浪潮最終創(chuàng)建了多層次冗余與故障管理容錯系統(tǒng)模型,天梭K1在芯片、模塊、固件、操作系統(tǒng)、業(yè)務應用層面全面采用冗余設計以杜絕單點故障,采用故障診斷、隔離和恢復的全流程自動處理技術,系統(tǒng)可自我修復,整體可用度超過99.9994%。同時,天梭K1的容錯技術經(jīng)受住了實際應用的檢驗。2010年8月,第一臺天梭K1樣機在建設銀行新疆區(qū)分行啟動上線測試,承擔中間業(yè)務系統(tǒng),成功替代國外產(chǎn)品。系統(tǒng)自上線以來,已經(jīng)穩(wěn)定運行1500余天。
操作系統(tǒng)是硬件資源的管理者。高端容錯計算機對性能、可靠性和安全性的要求都非常高,普通操作系統(tǒng)無法滿足高端容錯計算機的技術需求,需要專屬的操作系統(tǒng)。
復雜度是高端容錯計算機操作系統(tǒng)面臨的第一個技術挑戰(zhàn)。高端容錯計算機處理器核、內(nèi)存容量、I/O設備等資源的規(guī)模是通用服務器的十倍以上,操作系統(tǒng)資源管理復雜性極大提升。容錯是第二個重要的技術挑戰(zhàn)。高端容錯計算機系統(tǒng)不僅需要容忍幾十萬個器件的失效問題,也需要容忍難以控制的軟件缺陷問題。因此,需要開發(fā)復雜系統(tǒng)內(nèi)核容錯技術,快速準確地發(fā)現(xiàn)、隔離和恢復數(shù)百種軟硬件故障,保障系統(tǒng)承載的關鍵應用穩(wěn)定可靠運行。
浪潮最終研制成功中國第一款Unix 操作系統(tǒng)K-UX,在研制過程中共開發(fā)了3200 余項Unix特性,成功通過The Open Group Unix 03 國際標準認證的60000余項測試,并對該標準提出7項修改,且全部被納入新的測試標準。通過UNIX 03認證,意味著K-UX進入了高端關鍵應用操作系統(tǒng)的俱樂部。
浪潮在K-UX中建立了多層次NUMA 域非對稱資源調(diào)度技術體系,解決了大規(guī)模軟硬件資源的高效率調(diào)用問題。其中,內(nèi)核及共享庫代碼段多副本技術可以保證處理器盡可能地就近訪問待執(zhí)行指令,避免跨節(jié)點遠程取指,極大地降低了處理器間的通訊強度。通過實測,該技術可提升性能約160%。綜合利用多層次NUMA 域非對稱資源調(diào)度技術,實測該程序性能提升2.7倍。
浪潮還在K-UX中創(chuàng)建了復雜系統(tǒng)內(nèi)核容錯技術體系,解決了系統(tǒng)對軟硬件故障的容忍和自動化處理問題。浪潮開發(fā)出應用透明的進程級冗余技術,系統(tǒng)可識別關鍵任務并透明構造冗余進程,解決冗余進程間狀態(tài)同步和I/O 一致性難題,構建內(nèi)核級應用高可用機制,將業(yè)務失效切換時間由秒級大幅縮短至毫秒級。此外,還突破了設備驅動保護架構技術,為設備驅動提供隔離運行環(huán)境。約80%的操作系統(tǒng)失效是由于設備驅動程序缺陷引起的,K-UX設計實現(xiàn)內(nèi)核區(qū)域訪問控制機制,阻斷驅動程序缺陷污染內(nèi)核的路徑,從根本上解決了不良驅動對系統(tǒng)的潛在威脅。
評論