數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的HA測試
3 數(shù)據(jù)中心HA測試案例
3.1 IRF典型組網(wǎng)HA測試
圖4 數(shù)據(jù)中心IRF典型組網(wǎng)
如圖4所示,這是典型的數(shù)據(jù)中心網(wǎng)絡(luò)(接入5120+核心12500)兩層拓?fù)浣Y(jié)構(gòu),核心層兩臺S12500采用IRF模式,可以簡化網(wǎng)絡(luò)邏輯結(jié)構(gòu),提高設(shè)備利用效率并簡化網(wǎng)絡(luò)管理。接入層采用5120EI交換機做二層雙上行接入,接入層鏈路為跨機筐鏈路聚合。出口設(shè)備采用SR6600路由器與12500交換機運行OSPF或BGP路由協(xié)議,12500與SR6600之間都為雙上行三層等價鏈路。其中,SR6600模擬了廣域網(wǎng)出口設(shè)備,但在真實場景中使用高端交換機較多。5120EI和SR6600分別連接兩個應(yīng)用層測試儀(構(gòu)造具有狀態(tài)特征的UDP和TCP流量)端口。通過對設(shè)備故障和鏈路故障的模擬,可以直觀得到組網(wǎng)中應(yīng)用層業(yè)務(wù)的收斂時間、IRF和LACP的HA切換時間等。
需要精確統(tǒng)計時,可以用測試儀以標(biāo)準(zhǔn)報文大小模擬跨S5120EI和SR6600的南北向普通三層數(shù)據(jù)流,并以Full Mesh方式進行測試。記錄異常情況下全局系統(tǒng)的丟包數(shù)量從而計算HA中斷切換時間,重復(fù)測試3次記錄平均數(shù)據(jù),如表2所示。這些數(shù)據(jù)對于評估網(wǎng)絡(luò)整體的HA能力,優(yōu)化應(yīng)用層業(yè)務(wù)部署都有重要意義。
普通流量丟包情況(帶寬500Mbps,128字節(jié),422297 FPS)
表2 常見的IRF故障模擬和測試數(shù)據(jù)
通過測試數(shù)據(jù)可以很直觀的了解到整個網(wǎng)絡(luò)架構(gòu)中各種應(yīng)用在不同類型的故障情況下HA收斂的好壞指標(biāo)。比如表2所示,鏈路中斷的HA收斂時間好于設(shè)備重啟的,設(shè)備重啟與交換機主控故障的HA時間相近,交換矩陣故障中斷時間最長等等。在了解到這些異常情況對網(wǎng)絡(luò)的影響程度后,便可以有針對性的通過網(wǎng)絡(luò)設(shè)計和優(yōu)化配置加以改進,從而增加整個網(wǎng)絡(luò)架構(gòu)的HA能力。
3.2 路由典型組網(wǎng)HA測試
圖5 數(shù)據(jù)中心路由性能HA測試組網(wǎng)
圖5的測試組網(wǎng)也模擬了典型的數(shù)據(jù)中心網(wǎng)絡(luò)。接入層交換機使用兩臺真實設(shè)備,在大規(guī)格測試項中會使用測試儀模擬更多的接入交換機。核心設(shè)備之間采用普通的三層路由結(jié)構(gòu),機房或站點間的出口設(shè)備“MAN Core”采用一臺高端交換機模擬,MAN Core通過多條等價三層鏈路與內(nèi)部核心Core1和Core2連接。
初始情況下,測試儀端口1(與Access1相連)發(fā)向端口2(與Access2相連)的東西向流量是不通的。在測試儀端口2上發(fā)布路由后,等待各設(shè)備都學(xué)習(xí)到路由后才會收到報文。記錄測試儀從發(fā)布路由到測試儀收到流量的時間差,這個差值就是全網(wǎng)路由學(xué)習(xí)時間。由于采用傳統(tǒng)的測量流量圖記錄時間的方法誤差較大,可以采用TestCenter3.7版本中的高精度采樣功能來計算學(xué)習(xí)時間。如圖6所示。
圖6 TestCenter高精度采樣
為了測試的方便與準(zhǔn)確,采用了TestCenter軟件中的command sequence功能執(zhí)行流量、路由及采樣觸發(fā)的操作:
撤銷路由->停止流量發(fā)送等待10s->清除所有計數(shù)->等待5s->開始發(fā)送流量->等待5s->開始高精度采樣->等待5s->發(fā)布o(jì)spf路由->觸發(fā)高精度采樣。
command sequence執(zhí)行完成后,等待高精度采樣進行10s,然后點擊端口高精度采樣視圖下的show chart:
紅線為開始出發(fā)發(fā)布路由的時間,藍色線為流量曲線,測量兩個時間的時間差便可得到路由在網(wǎng)絡(luò)中的學(xué)習(xí)時間。
Access2相連的測試儀上發(fā)布、撤銷一條路由,在Access1設(shè)備上學(xué)習(xí)到的時間,我們分別使用OSPF和BGP兩種路由協(xié)議測試10次的結(jié)果如下:
BGP :
撤銷平均值:8.06ms;發(fā)布平均值:1.57s
OSPF:
撤銷平均值:7.88s;發(fā)布平均值:1.29s
測試結(jié)果表明BGP路由的撤消收斂時間明顯優(yōu)于OSPF.為了降低網(wǎng)絡(luò)故障對業(yè)務(wù)的影響,提高數(shù)據(jù)中心內(nèi)部的HA性能,采用什么樣的路由協(xié)議一直被很多用戶所關(guān)注。對于路由協(xié)議的運用,有一些傳統(tǒng)的使用模式,比如在數(shù)據(jù)中心內(nèi)部OSPF是被大家廣泛認(rèn)可、使用較多的路由協(xié)議。而BGP是廣域網(wǎng)上幾乎絕對的域間路由協(xié)議,但它只用于廣域鏈路的觀念正在慢慢地被改變。基于上述的測試結(jié)果,越來越多的用戶也會逐漸認(rèn)可并開始實踐采用BGP作為站點內(nèi)部路由協(xié)議的解決方案。
4 結(jié)束語
通過全局的組網(wǎng)HA測試,我們可以模擬數(shù)據(jù)中心真實的應(yīng)用場景和業(yè)務(wù)類型,直觀和精確的了解不同類型的故障下HA的收斂情況。也可以了解不同技術(shù)和協(xié)議在特定組網(wǎng)中的HA性能對比情況,根據(jù)其特點和優(yōu)劣勢來做出選擇,從而更好的設(shè)計和優(yōu)化用戶的真實環(huán)境。
評論