如何讓linux服務(wù)器磁盤(pán)io性能翻倍
一 機(jī)械磁盤(pán)的io的速度主要受“尋道速度”的限制,所以在訪(fǎng)問(wèn)小文件時(shí)io性能會(huì)極差。如果不在乎成本,可以通過(guò)使用固態(tài)硬盤(pán)來(lái)解決這個(gè)問(wèn)題。
本文引用地址:http://cafeforensic.com/article/201609/304177.htm二 linux的主流文件系統(tǒng)(如ext4等),在文件系統(tǒng)持續(xù)比較滿(mǎn),且需要經(jīng)常刪改文件時(shí),會(huì)產(chǎn)生大量文件碎片。在我開(kāi)發(fā)的一款代理服務(wù)器中,磁盤(pán)長(zhǎng)期滿(mǎn)負(fù)荷運(yùn)轉(zhuǎn),運(yùn)行一個(gè)月后文件碎片大約會(huì)讓io性能降低至只剩20%-30%
這一期我們來(lái)看一下有哪些辦法可以減少linux下的文件碎片。主要是針對(duì)磁盤(pán)長(zhǎng)期滿(mǎn)負(fù)荷運(yùn)轉(zhuǎn)的使用場(chǎng)景(例如http代理服務(wù)器);另外有一個(gè)小技巧,針對(duì)互聯(lián)網(wǎng)圖片服務(wù)器,可以將io性能提升數(shù)倍。
如果為服務(wù)器訂制一個(gè)專(zhuān)用文件系統(tǒng),可以完全解決文件碎片的問(wèn)題,將磁盤(pán)io的性能發(fā)揮至極限。對(duì)于我們的代理服務(wù)器,相當(dāng)于把io性能提升到3-5倍。
在現(xiàn)有文件系統(tǒng)下進(jìn)行優(yōu)化
linux內(nèi)核和各個(gè)文件系統(tǒng)采用了幾個(gè)優(yōu)化方案來(lái)提升磁盤(pán)訪(fǎng)問(wèn)速度。但這些優(yōu)化方案需要在我們的服務(wù)器設(shè)計(jì)中進(jìn)行配合才能得到充分發(fā)揮。
文件系統(tǒng)緩存
linux內(nèi)核會(huì)將大部分空閑內(nèi)存交給虛擬文件系統(tǒng),來(lái)作為文件緩存,叫做page cache。在內(nèi)存不足時(shí),這部分內(nèi)存會(huì)采用lru算法進(jìn)行淘汰。
通過(guò)free命令查看內(nèi)存,顯示為cached的部分就是文件緩存了。
如何針對(duì)性?xún)?yōu)化:
lru并不是一個(gè)優(yōu)秀淘汰算法,lru最大的優(yōu)勢(shì)是普適性好,在各種使用場(chǎng)景下都能起到一定的效果。
如果能找到當(dāng)前使用場(chǎng)景下,文件被訪(fǎng)問(wèn)的統(tǒng)計(jì)特征,針對(duì)性的寫(xiě)一個(gè)淘汰算法,可以大幅提升文件緩存的命中率。
對(duì)于http正向代理來(lái)說(shuō),一個(gè)好的淘汰算法可以用1GB內(nèi)存達(dá)到lru算法100GB內(nèi)存的緩存效果。
如果不打算寫(xiě)一個(gè)新的淘汰算法,一般不需要在應(yīng)用層再搭一個(gè)文件cache程序來(lái)做緩存。
最小分配
當(dāng)文件擴(kuò)大,需要分配磁盤(pán)空間時(shí),大部分文件系統(tǒng)不會(huì)僅僅只分配當(dāng)前需要的磁盤(pán)空間,而是會(huì)多分配一些磁盤(pán)空間。這樣下次文件擴(kuò)大時(shí)就可以使用已經(jīng)分配好的空間,而不會(huì)頻繁的去分配新空間。
例如ext3下,每次分配磁盤(pán)空間時(shí),最小是分配8KB。
最小分配的副作用是會(huì)浪費(fèi)一些磁盤(pán)空間(分配了但是又沒(méi)有使用)
如何針對(duì)性?xún)?yōu)化:
我們?cè)趓eiserfs下將最小分配空間從8KB改大到128K后提升了30%的磁盤(pán)io性能。
如果當(dāng)前使用場(chǎng)景下小文件很多,把預(yù)分配改大就會(huì)浪費(fèi)很多磁盤(pán)空間,所以這個(gè)數(shù)值要根據(jù)當(dāng)前使用場(chǎng)景來(lái)設(shè)定。
似乎要直接改源代碼才能生效,不太記得了,09年的時(shí)候改的,有興趣的同學(xué)自己google吧。
io訪(fǎng)問(wèn)調(diào)度
在同時(shí)有多個(gè)io訪(fǎng)問(wèn)時(shí),linux內(nèi)核可以對(duì)這些io訪(fǎng)問(wèn)按LBA進(jìn)行合并和排序,這樣磁頭在移動(dòng)時(shí),可以“順便”讀出移動(dòng)過(guò)程中的數(shù)據(jù)。
2.6內(nèi)核有四種不同的排序算法,有些側(cè)重于io性能最大化,也有一些側(cè)重于調(diào)度的公平性,大致上的原理都類(lèi)似于電梯排序。
SATA等磁盤(pán)甚至在磁盤(pán)中內(nèi)置了io排序來(lái)進(jìn)一步提升性能,一般需要在主板中進(jìn)行配置才能啟動(dòng)磁盤(pán)內(nèi)置io排序。linux的io排序是根據(jù)LBA進(jìn)行的,但LBA是一個(gè)一維線(xiàn)性地址,無(wú)法完全反應(yīng)出二維的圓形磁盤(pán),所以磁盤(pán)的內(nèi)置io排序能達(dá)到更好的效果。
關(guān)于LBA請(qǐng)參考上一期博客,http://blog.chinaunix.net/uid-29873073-id-4514435.html
如何針對(duì)性?xún)?yōu)化:
io訪(fǎng)問(wèn)調(diào)度能大幅提升io性能,前提是應(yīng)用層同時(shí)發(fā)起了足夠的io訪(fǎng)問(wèn)供linux去調(diào)度。
怎樣才能從應(yīng)用層同時(shí)向內(nèi)核發(fā)起多個(gè)io訪(fǎng)問(wèn)呢?
方案一是用aio_read異步發(fā)起多個(gè)文件讀寫(xiě)請(qǐng)求。
方案二是使用磁盤(pán)線(xiàn)程池同時(shí)發(fā)起多個(gè)文件讀寫(xiě)請(qǐng)求。
對(duì)我們的http正向代理來(lái)說(shuō),采用16個(gè)線(xiàn)程讀寫(xiě)磁盤(pán)可以將性能提升到2.5倍左右。具體開(kāi)多少個(gè)線(xiàn)程/進(jìn)程,可以根據(jù)具體使用場(chǎng)景來(lái)決定。
小提示:
將文件句柄設(shè)置為非阻塞時(shí),進(jìn)程還是會(huì)睡眠等待磁盤(pán)io,非阻塞對(duì)于文件讀寫(xiě)是不生效的。在正常情況下,讀文件只會(huì)引入十幾毫秒睡眠,所以不太明顯;而在磁盤(pán)io極大時(shí),讀文件會(huì)引起十秒以上的進(jìn)程睡眠。
詳見(jiàn)內(nèi)核源代碼do_generic_file_read會(huì)調(diào)用lock_page_killable進(jìn)入睡眠,但是不會(huì)判斷句柄的非阻塞標(biāo)志。
預(yù)讀取
linux內(nèi)核可以預(yù)測(cè)我們“將來(lái)的讀請(qǐng)求”并提前將數(shù)據(jù)讀取出來(lái)。通過(guò)預(yù)讀取可以減少讀io的次數(shù),并且減小讀請(qǐng)求的延時(shí)。
如何針對(duì)性?xún)?yōu)化:
預(yù)讀取的預(yù)測(cè)準(zhǔn)確率是有限的,與其依賴(lài)預(yù)讀取,不如我們直接開(kāi)一個(gè)較大的緩沖區(qū),一次性將文件讀出來(lái)再慢慢處理;盡量不要開(kāi)一個(gè)較小的緩沖區(qū),循環(huán)讀文件/處理文件。
究竟開(kāi)多大緩沖區(qū)合適,要根據(jù)具體使用場(chǎng)景下的內(nèi)存/磁盤(pán)io壓力來(lái)決定。
雖然說(shuō)“預(yù)讀取”和“延遲分配”能起到類(lèi)似的作用,但是我們自己擴(kuò)大讀寫(xiě)緩沖區(qū)效果要更好。
延遲分配
當(dāng)文件擴(kuò)大,需要分配磁盤(pán)空間時(shí),可以不立即進(jìn)行分配,而是暫存在內(nèi)存中,將多次分配磁盤(pán)空間的請(qǐng)求聚合在一起后,再進(jìn)行一次性分配。
延遲分配的目的也是減少分配次數(shù),從而減少文件不連續(xù)。
延遲分配的副作用有幾個(gè):
1 如果應(yīng)用程序每次寫(xiě)數(shù)據(jù)后都通過(guò)fsync等接口進(jìn)行強(qiáng)制刷新,延遲分配將不起作用
2 延遲分配有可能間歇性引入一個(gè)較大的磁盤(pán)IO延時(shí)(因?yàn)橐淮涡韵虼疟P(pán)寫(xiě)入較多數(shù)據(jù))
只有少數(shù)新文件系統(tǒng)支持這個(gè)特性
如何針對(duì)性?xún)?yōu)化:
如果不是對(duì)安全性(是否允許丟失)要求極高的數(shù)據(jù),可以直接在應(yīng)用程序里緩存起來(lái),積累到一定大小再寫(xiě)入,效果比文件系統(tǒng)的延遲分配更好。
如果對(duì)安全性要求極高,建議經(jīng)常用fsync強(qiáng)制刷新。
在線(xiàn)磁盤(pán)碎片整理
Ext4提供了一款碎片整理工具,叫e4defrag,主要包含三個(gè)功能:
1 讓每個(gè)文件連續(xù)存儲(chǔ)
2 盡量讓每個(gè)目錄下的文件連續(xù)存儲(chǔ)
3 通過(guò)整理空閑磁盤(pán)空間,讓接下來(lái)的分配更不容易產(chǎn)生碎片
有興趣的同學(xué)可以參考http://jsmylinux.no-ip.org/applications/using-e4defrag/
如何針對(duì)性?xún)?yōu)化:
“讓每個(gè)目錄下的文件連續(xù)存儲(chǔ)”是一個(gè)極有價(jià)值的功能。
評(píng)論