服務(wù)器的熱插拔(Hot Plug)技術(shù)
介紹服務(wù)器的熱插拔(Hot Plug)技術(shù)。
本文引用地址:http://cafeforensic.com/article/202195.htm我們都知道,即使再高的服務(wù)器可用性也有可能出現(xiàn)故障的時(shí)候,只不過(guò)不知道它何時(shí)出現(xiàn)而已。然而一旦服務(wù)器出現(xiàn)故障,通常不太可能像PC機(jī)那樣停下機(jī)來(lái)進(jìn)行長(zhǎng)時(shí)間的維修(除非迫不得已),而是采用在線更換故障配件來(lái)進(jìn)行維護(hù)的,這就是本文所要介紹的“熱插拔”(Hot Plug)技術(shù)誕生的初衷。
熱插拔技術(shù)就是指在服務(wù)器系統(tǒng)正常開機(jī)、運(yùn)行的狀態(tài)下,對(duì)故障配件進(jìn)行更換、或者添加新的配件,涉及到三個(gè)方面的專業(yè)術(shù)語(yǔ),那就是熱替換(Hot Replacement)、熱添加(Hot Expansion)和熱升級(jí)(Hot Upgrade)。
熱插拔技術(shù)其實(shí)很早就有了,最早的是SCSI硬盤的熱插拔技術(shù),我們最容易想起的也是它。那是因?yàn)楫?dāng)時(shí)在整個(gè)服務(wù)器配件中,出現(xiàn)故障機(jī)率最大的就是硬盤,而當(dāng)時(shí)的服務(wù)器硬盤接口基本上都是SCSI接口類型,所以在SCSI硬盤上實(shí)現(xiàn)熱插拔就成為當(dāng)時(shí)之急需了。隨著硬盤陣列技術(shù)的日益成熟,熱插拔SCSI硬盤陣列也就成了服務(wù)器熱插拔硬盤的代名詞。它可以實(shí)現(xiàn)在在線情況下更換故障硬盤、添加新的硬盤進(jìn)陣列中,極大地方便了服務(wù)器硬盤陣列系統(tǒng)的維護(hù)。
然而隨著服務(wù)器應(yīng)用的深入,服務(wù)器所承受的負(fù)荷遠(yuǎn)遠(yuǎn)走出了當(dāng)時(shí)的情形,而且由于用戶對(duì)網(wǎng)絡(luò)的依賴性比以前更強(qiáng)了,所以對(duì)服務(wù)器系統(tǒng)的穩(wěn)定性要求也較以前大大提高了。這樣一來(lái),對(duì)其它配件支持熱插拔技術(shù)的呼聲也就越來(lái)越高了,因?yàn)楝F(xiàn)在服務(wù)器系統(tǒng)主要出現(xiàn)故障的配件不再僅是硬盤系統(tǒng)了,而更多的可能是內(nèi)存、PCI適配器、電源和風(fēng)扇等。有的甚至支持CPU和服務(wù)器本身熱插拔,當(dāng)然這主要是在高端多路處理器服務(wù)器系統(tǒng)和群集服務(wù)器系統(tǒng)中?,F(xiàn)在,熱插拔技術(shù)在確保服務(wù)器系統(tǒng)可用性已顯得越來(lái)越重要了,已成為服務(wù)器的標(biāo)準(zhǔn)技術(shù)。盡管不同檔次的服務(wù)器所支持的熱插拔配件并不完全一樣,但對(duì)于像硬盤、電源和風(fēng)扇的熱插拔技術(shù)支持已成為最基本的服務(wù)器技術(shù)配置了。
不過(guò)要說(shuō)明的是,熱插拔技術(shù)現(xiàn)在已不再是服務(wù)器系統(tǒng)所專用,在PC系統(tǒng)也開始得到應(yīng)用,但并不主要是出現(xiàn)系統(tǒng)維護(hù)方面考慮的,如支持熱插拔的USB接口。需要連接USB外設(shè)時(shí),只需把它插入到計(jì)算機(jī)的USB接口即可,而不管計(jì)算機(jī)當(dāng)前是否正在運(yùn)行。
前面我們說(shuō)到了,現(xiàn)在的服務(wù)器系統(tǒng)支持熱插拔技術(shù)的已遠(yuǎn)不是SCSI硬盤一種了,已在像CPU、內(nèi)存、網(wǎng)卡、電源和風(fēng)扇等關(guān)鍵設(shè)備中全面支持。但從原理上來(lái)說(shuō),最底層的技術(shù)支持還是像PCI、PCI-X、PCI-E和InfiniBand之類總線技術(shù)。
熱插拔功能的實(shí)現(xiàn)首先需要軟、硬件的共同支持,包括有熱插拔功能的硬件設(shè)備、支持熱插拔的操作系統(tǒng)和用戶界面、主板BIOS以及支持熱插拔功能的PCI總線等等。其中PCI熱插拔技術(shù)對(duì)于網(wǎng)卡、電源、風(fēng)扇、SCSI設(shè)備等熱插拔硬件的應(yīng)用來(lái)說(shuō)意義重大,因?yàn)樗沁@些設(shè)備得以實(shí)現(xiàn)熱插拔功能的基礎(chǔ)。當(dāng)然這里還有一個(gè)標(biāo)準(zhǔn)問(wèn)題,因?yàn)镻CI總線體系結(jié)構(gòu)的改變就意味著硬件接口標(biāo)準(zhǔn)的改變,所以必須制定統(tǒng)一的工業(yè)標(biāo)準(zhǔn),技術(shù)才能獲得推廣。
自從PCI規(guī)范標(biāo)準(zhǔn)化后,PCI熱插拔技術(shù)也就得到了硬件方面的支持,但它還需要通過(guò)軟件來(lái)完善和實(shí)現(xiàn)。首先是操作系統(tǒng)的支持,微軟在Windows 2000系統(tǒng)中支持PCI熱插拔功能的是“高級(jí)配置和電源接口”(ACPI)規(guī)范,通過(guò)屏蔽每個(gè)熱插拔控制器來(lái)實(shí)現(xiàn)硬件的熱插拔,以及在線升級(jí)(也就是熱升級(jí))?;萜赵谖④浀腁CPI規(guī)范的基礎(chǔ)上又做了進(jìn)一步改進(jìn),開發(fā)出“PCI Hot Plug Utility”遠(yuǎn)程管理工具,可以在操作系統(tǒng)不支持熱插拔功能的情況下,用統(tǒng)一的管理平臺(tái)統(tǒng)一調(diào)用和管理遠(yuǎn)程網(wǎng)絡(luò)系統(tǒng)中的PCI熱插拔插槽。而且惠普還對(duì)插槽進(jìn)行了專用集成電路(ASIC)來(lái)控制熱插拔設(shè)備時(shí)插槽的電流穩(wěn)定性。顯而易見(jiàn),HP的ProLiant服務(wù)器由此獲得了兩種軟件支持熱插拔設(shè)備的途徑,操作系統(tǒng)或者是PCI Hot Plug Utility管理工具。
有了PCI總線的支持,帶電插拔服務(wù)器中的SCSI設(shè)備、網(wǎng)卡、電源、風(fēng)扇等自然變得輕而易舉。而其它幾種目前較新的總線技術(shù)都是不同程度地從PCI總線升級(jí)得到的,在熱插拔方面,不僅完全繼續(xù),而且還有相當(dāng)大的提高,因?yàn)樗鼈兓旧?不是全部,PCI-X仍屬于并行結(jié)構(gòu))都是從傳統(tǒng)的并行向最新的串行接口技術(shù)轉(zhuǎn)變,同一時(shí)刻的單一傳輸任務(wù)和極少的插針,使得采用這些接口的設(shè)備在熱插拔時(shí),對(duì)系統(tǒng)及自身的影響都遠(yuǎn)小于并行總線的PCI設(shè)備。這些新型的總線技術(shù)基本上都很容易地實(shí)現(xiàn)了對(duì)熱插拔技術(shù)的支持,就像USB和SATA接口技術(shù)一樣。正因如此,采用這些新型總線技術(shù)的網(wǎng)卡、硬盤陣列卡等設(shè)備也就全面繼承并擴(kuò)展了對(duì)熱插拔技術(shù)的支持。這里要簡(jiǎn)單介紹的是IBM的Active PCI-X(活動(dòng)PCI-X)技術(shù)。
Active PCI-X是IBM原來(lái)在大型機(jī),現(xiàn)在是其企業(yè)級(jí)x架構(gòu)服務(wù)器中普遍使用的一種熱插拔技術(shù)。PCI-X 技術(shù)充分利用了 PCI 總線的廣泛性,對(duì)常規(guī) PCI 總線進(jìn)行了改進(jìn)和 I/O 升級(jí)。PCI-X技術(shù)在常規(guī) PCI 總線帶寬的基礎(chǔ)上,將總線容量提高了八倍多 - 從32位、33-MHz PCI總線的133 MB/s提高到64位、133-MHz PCI-X總線的1066 MB/s。它增強(qiáng)了PCI協(xié)議,開發(fā)了一個(gè)工業(yè)標(biāo)準(zhǔn)的互連結(jié)構(gòu),原始帶寬超過(guò)每秒1千兆字節(jié)(GB/s),將滿足企業(yè)計(jì)算系統(tǒng)今后的帶寬需求。PCI-X總線在適配器級(jí)和系統(tǒng)級(jí)上提供對(duì)PCI總線的向后兼容性。
IBM在成功實(shí)現(xiàn)Active PCI(活動(dòng)PCI)技術(shù)的基礎(chǔ)之上,在基于企業(yè)級(jí)服務(wù)器X架構(gòu)設(shè)計(jì)的一些X系列服務(wù)器中引入同時(shí)支持PCI和PCI-X兩種適配器接口的Active PCI-X(活動(dòng)PCI-X)技術(shù)?;顒?dòng)PCI-X總線技術(shù)就為IBM提供了提升服務(wù)器總體性能的另一個(gè)解決方案?;顒?dòng)PCI-X的主要特性如下:
熱交換 (Hot Swap):允許在不用關(guān)閉和重啟服務(wù)器的情況下更換適配器。
熱添加(Hot add):提供了一種容易的升級(jí)方式,允許在服務(wù)器運(yùn)行的狀態(tài)下添加新的適配器(在工業(yè)標(biāo)準(zhǔn)中IBM是第一個(gè)提供這種性能的)。
切換(Failover):允許在主適配器出現(xiàn)故障的情況下極快地用另一個(gè)備用適配器接替原來(lái)適配器的工作繼續(xù)運(yùn)行。
PCI及其它幾種總線類型設(shè)備的熱插拔支持解決了,但要實(shí)現(xiàn)服務(wù)器內(nèi)存的熱插拔,僅僅依靠PCI總線技術(shù)當(dāng)然還不能完全解決。于是那些像IBM、HP這樣的頂級(jí)服務(wù)器巨頭就開始了自己的內(nèi)存糾錯(cuò)技術(shù)的研究,相繼出臺(tái)了Chipkill和Advanced ECC內(nèi)存糾錯(cuò)技術(shù),比起傳統(tǒng)的ECC技術(shù)來(lái)說(shuō),在發(fā)現(xiàn)和糾正內(nèi)存錯(cuò)誤能力上有了相當(dāng)大的提高,因?yàn)樗鼈兌伎梢詫?shí)現(xiàn)4比特的內(nèi)存糾錯(cuò)。
盡管如此,這樣簡(jiǎn)單的少數(shù)比特位發(fā)生錯(cuò)誤的情況在整個(gè)內(nèi)存錯(cuò)誤中所占的比例仍不是很高,還有相當(dāng)大一部分內(nèi)存錯(cuò)誤并不屬于這一類,而是出現(xiàn)多比特位,甚至是硬件出現(xiàn)損壞,這時(shí)以上的幾種糾錯(cuò)技術(shù)也就無(wú)能為力了。于是IBM、HP等服務(wù)器巨頭又開始想其它辦法了。同樣相繼開發(fā)了多種不同級(jí)別的內(nèi)存保護(hù)技術(shù),如IBM的內(nèi)存保護(hù)(Memory ProteXion)技術(shù)、內(nèi)存鏡像(Memory Mirroring)技術(shù)、內(nèi)存熱添加/交換(Memory Hot-add/swap)技術(shù);HP的鏡像內(nèi)存(Mirroring Memory)技術(shù)、在線內(nèi)存?zhèn)浞?Online Spare Memory Mode)技術(shù)和熱插拔陣列內(nèi)存技術(shù)(Hot Plug RAID Memory)等。
當(dāng)然以上并不是服務(wù)器熱插拔技術(shù)的全部,就整個(gè)熱插拔技術(shù)來(lái)說(shuō),還是相當(dāng)復(fù)雜的廣泛的。前面我們介紹到了,基本的PCI類適配器、電源和風(fēng)扇熱插拔比較容易實(shí)現(xiàn),內(nèi)存的熱插拔實(shí)現(xiàn)較難,但處理器和服務(wù)器本身的熱插拔就更難了,它涉及到許多比較深的技術(shù),如處理器擴(kuò)展、邏輯分獲和服務(wù)器群集等,在此就不一一介紹了。
更多計(jì)算機(jī)與外設(shè)信息請(qǐng)關(guān)注:21ic計(jì)算機(jī)與外設(shè)頻道
評(píng)論