數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的HA測(cè)試
高可用性需求是數(shù)據(jù)中心最重要的需求之一,由于數(shù)據(jù)中心承載著網(wǎng)絡(luò)中的重要業(yè)務(wù)數(shù)據(jù),所以業(yè)務(wù)的高可用性(即業(yè)務(wù)的連續(xù)性)受到極大關(guān)注。不同等級(jí)的數(shù)據(jù)中心對(duì)網(wǎng)絡(luò)的高可用性有著不同的要求,但設(shè)備和鏈路的冗余設(shè)計(jì)是最基本最普遍的要求,而區(qū)別主要在于網(wǎng)絡(luò)故障對(duì)業(yè)務(wù)恢復(fù)的快慢影響。對(duì)數(shù)據(jù)中心而言,高可用性涉及到網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、電力、制冷等多個(gè)方面的因素,本文主要闡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的高可用需求以及典型測(cè)試案例。
本文引用地址:http://cafeforensic.com/article/192955.htm1 數(shù)據(jù)中心HA設(shè)計(jì)需求
1.1 數(shù)據(jù)中心HA設(shè)計(jì)的重要性
網(wǎng)絡(luò)中節(jié)點(diǎn)和鏈路的故障總是無法完全避免的,所以提升網(wǎng)絡(luò)可用性的重要方法之一是整體架構(gòu)的冗余設(shè)計(jì),通過設(shè)備或鏈路失效時(shí)的備份接管,盡量減少系統(tǒng)的故障恢復(fù)時(shí)間。
表1是不同等級(jí)的可用性與總故障時(shí)間(以一年為時(shí)間段)的對(duì)應(yīng)關(guān)系表:
表1 不同等級(jí)可用性與一年內(nèi)的總故障時(shí)間的對(duì)應(yīng)關(guān)系
為什么數(shù)據(jù)中心網(wǎng)絡(luò)的可靠性如此重要呢?簡(jiǎn)單來說,有以下幾個(gè)方面原因:
1、業(yè)務(wù)的多樣性和高度集中性
無論是從機(jī)房規(guī)模、業(yè)務(wù)種類,還是架構(gòu)復(fù)雜性方面,今天的數(shù)據(jù)中心都在快速擴(kuò)展。高性能服務(wù)器、虛擬化和高速以太網(wǎng)等新技術(shù)都著眼于將多種流量類型,如數(shù)據(jù)、存儲(chǔ)、視頻和語音等匯聚在單一的網(wǎng)絡(luò)架構(gòu)中。業(yè)務(wù)的高度集中使得網(wǎng)絡(luò)故障的影響和損失擴(kuò)大,從而也提高了對(duì)網(wǎng)絡(luò)可靠性的需求。
2、超大型數(shù)據(jù)中心對(duì)高可靠性的需求
超大型數(shù)據(jù)中心,尤其是一些重載型數(shù)據(jù)中心,其對(duì)網(wǎng)絡(luò)的利用率及鏈路帶寬的使用具有很高的比率。按一條60%利用率的10GE鏈路來看,即使中斷0.1秒也會(huì)丟失600M左右的數(shù)據(jù)。如果按照5個(gè)9的標(biāo)準(zhǔn)計(jì)算,一年累計(jì)中斷5.256分鐘即315.36秒,一條10GE鏈路將丟失大約1.892T的數(shù)據(jù)。越是關(guān)鍵的位置,網(wǎng)絡(luò)故障的影響將越加嚴(yán)重,固然對(duì)HA的能力要求越高。
3、高速鏈路帶來的丟包風(fēng)險(xiǎn)
同樣重要的是,現(xiàn)在數(shù)據(jù)中心邊緣端口正變得越來越快。正如服務(wù)器中的千兆以太網(wǎng)接口推動(dòng)了交換機(jī)的萬兆以太網(wǎng)的部署一樣,服務(wù)器萬兆接口的普及也將推動(dòng)數(shù)據(jù)中心核心網(wǎng)對(duì)40GE和100GE以太網(wǎng)的迫切需求。帶寬的增長(zhǎng)自然會(huì)對(duì)核心網(wǎng)帶來更大的HA風(fēng)險(xiǎn)。40GE或100GE的鏈路故障帶來的損失更加嚴(yán)重,如果鏈路承載了關(guān)鍵業(yè)務(wù)的重要數(shù)據(jù),這樣的損失將是不可接受的。用戶對(duì)可用性的要求隨著設(shè)備性能的提高,只會(huì)越來越苛刻。
4、云計(jì)算對(duì)基礎(chǔ)設(shè)施高可靠性需求的提高
目前云計(jì)算正逐漸成為一種現(xiàn)實(shí),而且越來越多的私有云和公共云的部署使用都已經(jīng)充分證明了其存在的意義?;A(chǔ)設(shè)施即服務(wù)(IaaS)的吸引力也在不斷增加。有多種能力可以增強(qiáng)IaaS云的可用性,例如實(shí)時(shí)遷移、動(dòng)態(tài)資源調(diào)度和自動(dòng)重啟等。虛擬機(jī)的實(shí)時(shí)遷移產(chǎn)生了額外的網(wǎng)絡(luò)流量,這對(duì)于已經(jīng)處于高負(fù)荷狀態(tài)的網(wǎng)絡(luò)提出了額外的需求,所以實(shí)際的結(jié)果可能導(dǎo)致性能或可用性的進(jìn)一步惡化。網(wǎng)絡(luò)延時(shí)和丟包會(huì)導(dǎo)致虛擬機(jī)遷移的失敗,在實(shí)時(shí)遷移過程中測(cè)量虛擬機(jī)的停機(jī)時(shí)間,以及大規(guī)模虛擬機(jī)遷移的成功率等都是數(shù)據(jù)中心HA的新關(guān)注要點(diǎn)。
1.2 全局測(cè)試與數(shù)據(jù)中心HA
隨著數(shù)據(jù)中心網(wǎng)絡(luò)的不斷變化和發(fā)展,一個(gè)關(guān)鍵的問題是:怎樣才能盡可能的了解真實(shí)網(wǎng)絡(luò)的HA故障切換指標(biāo)?這種情況下,全局性的測(cè)試方法有助于確保實(shí)現(xiàn)復(fù)雜的相關(guān)功能和多設(shè)備的組合運(yùn)用。“全局測(cè)試”不僅可以測(cè)試單個(gè)數(shù)據(jù)中心組件,而且可以測(cè)量整個(gè)數(shù)據(jù)中心的能力,并產(chǎn)生有意義的結(jié)果。全局測(cè)試還可以涵蓋TCP/IP的所有層次,并且可以測(cè)量通過數(shù)據(jù)中心網(wǎng)絡(luò)任意路徑的流量。在一個(gè)數(shù)據(jù)中心環(huán)境中,全局的HA測(cè)試意味著不僅是只對(duì)單個(gè)網(wǎng)絡(luò)組件的HA性能進(jìn)行測(cè)試,還要確保每一個(gè)組件與數(shù)據(jù)中心其它新舊組件配合起來協(xié)同運(yùn)作的可靠性和整體的HA能力。
全局測(cè)試的特點(diǎn)是基于真實(shí)應(yīng)用的流量模擬來衡量網(wǎng)絡(luò)的整體指標(biāo),通過對(duì)流量特征的構(gòu)造模擬,精確統(tǒng)計(jì)網(wǎng)絡(luò)的功能、性能和HA各項(xiàng)指標(biāo)?;跍y(cè)試結(jié)論分析評(píng)估網(wǎng)絡(luò)整體架構(gòu)的合理性、擴(kuò)展性等,為網(wǎng)絡(luò)優(yōu)化提供數(shù)據(jù)參考。通過采用全局性的整體方案驗(yàn)證和性能測(cè)量方法,能夠使這種復(fù)雜系統(tǒng)的測(cè)試評(píng)估更加簡(jiǎn)化。
2 全局的HA測(cè)試方法
2.1 流量模擬
數(shù)據(jù)中心的業(yè)務(wù)流量主要分為服務(wù)器之間的內(nèi)部流量和用戶端與服務(wù)器之間的外部流量,也稱為“東西向”流量和“南北向”流量。對(duì)應(yīng)RFC規(guī)范中定義的測(cè)試流量類型則是“非網(wǎng)格型”和“部分網(wǎng)格型”,兩者的組合可以看作“全網(wǎng)格型”.由于轉(zhuǎn)發(fā)路徑和設(shè)備的處理方式不同,HA測(cè)試中需要同時(shí)關(guān)注這兩類流量的故障恢復(fù)情況。如圖1所示。
圖1 數(shù)據(jù)中心流量模擬
2.2 故障事件模擬
通過模擬網(wǎng)絡(luò)失效來計(jì)算HA指標(biāo),可以簡(jiǎn)單的將失效歸類為鏈路故障、板卡故障、設(shè)備故障、多設(shè)備故障和站點(diǎn)故障。這些故障事件發(fā)生的概率依次降低,所以HA測(cè)試的關(guān)注點(diǎn)主要集中在鏈路、板卡和設(shè)備故障上,這也是數(shù)據(jù)中心網(wǎng)絡(luò)HA設(shè)計(jì)的最基本要求。常用的操作方式為接口的Up/Down 、線卡的拔出/插入、機(jī)框的加電/斷電等,特殊情況下也可以通過測(cè)試儀或被測(cè)設(shè)備的系統(tǒng)軟件功能來模擬HA事件。
2.3 HA測(cè)試量化統(tǒng)計(jì)
通過HA測(cè)試,不僅可以驗(yàn)證被測(cè)系統(tǒng)在某些異常情況下是否可以保證功能的可用性,同時(shí)也可以通過精確統(tǒng)計(jì)得到業(yè)務(wù)流量中斷的量化指標(biāo)。通過測(cè)試儀器構(gòu)造一定速率的數(shù)據(jù)報(bào)文經(jīng)過被測(cè)系統(tǒng)轉(zhuǎn)發(fā),模擬某些故障情況下的報(bào)文丟失并統(tǒng)計(jì)出數(shù)量,從而計(jì)算出流量的中斷時(shí)間,來衡量被測(cè)系統(tǒng)的HA性能指標(biāo)。計(jì)算公式如下:
故障失效恢復(fù)時(shí)間=(發(fā)包端口發(fā)包數(shù)-收包端口收包數(shù))÷ 鏈路轉(zhuǎn)發(fā)速率
也可以通過L4-L7層測(cè)試儀模擬上層業(yè)務(wù)交互來更直觀的了解被測(cè)系統(tǒng)在各類異常情況下對(duì)業(yè)務(wù)的影響。如圖2所示。
圖2 BPS測(cè)試儀顯示TCP新建連接抖動(dòng)情況
對(duì)于通過測(cè)試儀發(fā)起或參與的模擬網(wǎng)絡(luò)事件的測(cè)試項(xiàng),還可以通過測(cè)試儀自身提供的高精度采樣功能來更加精確統(tǒng)計(jì)設(shè)備或網(wǎng)絡(luò)的性能。例如,在通過測(cè)試儀發(fā)送路由表項(xiàng)來測(cè)試設(shè)備的路由學(xué)習(xí)性能時(shí),可以通過如圖3所示的高精度采樣功能來統(tǒng)計(jì)時(shí)間。
圖3 TestCenter測(cè)試儀顯示的高精度采樣功能
評(píng)論