數(shù)據(jù)存儲之七種RAID淺析
RAID
前面我們介紹了磁盤的基本原理,我們知道一塊磁盤的容量和速度是有限的,對于一些應用來說,可能需要幾個TB的大小的來存放數(shù)據(jù),我們必須要制造更大單盤容量的磁盤嗎?實際上,可以使用多塊磁盤并行起來解決這個問題,這就是RAID技術(shù)。
RAID:獨立的磁盤組成具有冗余特性的陣列。Redundant Array of Independent Disks
七種RAID
RAID 0
實現(xiàn)RAID 0 有兩種方式,一種是非條帶化的模式,一種是條帶化的模式。
對于非條帶化的模式:
RAID 0 : 一塊磁盤寫滿了,就往另一塊上寫, 一次IO只用到一塊磁盤,對整個系統(tǒng)來說容量增大了。
因為寫滿一塊物理盤以后再寫另一塊盤。對寫IO沒有任何優(yōu)化,但是對讀IO能提高一定的并發(fā)IO讀幾率。
我們希望可以這樣,同時向兩塊磁盤進行寫。我們可以把要寫的IO塊進行編號,1、2、3……100等,然后在$t_1$時刻,磁盤A和磁盤B同時寫入1、3兩塊,然后$t_2$時刻,同時寫入2、4塊,依次類推。
這樣就可以實現(xiàn)并發(fā)寫IO呢。接下來就是如何來進行塊的劃分的問題了。
其實磁盤已經(jīng)經(jīng)過低級格式化了,也就是劃分為若干的扇區(qū),但是扇區(qū)只有512B大小,這么小的粒度太消耗性能。所以我們要重新劃分磁盤,而且又不能拋棄原有的扇區(qū)。
最直接的想法就是若干個扇區(qū)組成一個Data block,比如由4個扇區(qū)組成一個塊(block)
- data Block:N倍個扇區(qū)大小的容量,Block只有在一個Segment中是物理連續(xù)的,邏輯連續(xù)就需要跨物理磁盤。
下圖是引入了分割思想以后的硬盤
- 不同磁盤的相同偏移處的塊組成成了Stripe,也就是條帶,Stripee
- Segment:一個Stripee所占用的單塊磁盤上的區(qū)域。
那么條帶深度和條帶長度指的就是
總結(jié)
這就是所謂的條帶化,它是對磁盤邏輯上的劃分,相當于在磁盤上加了一個中間層而已
這樣對于一個大塊的數(shù)據(jù),可以以條帶為單位進行寫入,也就是數(shù)據(jù)被分為了多塊寫入了4塊硬盤。而不是向之前一樣順序的寫入一個硬盤里面
RAID 0要提升性能,條帶要做得越小越好。因為若是條帶深度容量大于寫入的數(shù)據(jù)的長度,這段數(shù)據(jù)將會落到同一個segment中,相當于本次IO只能從一塊硬盤中讀取。
但是條帶太小,并發(fā)IO幾率降低。因為如果條帶太小,每次IO一定會占用大部分物理盤,隊列中的IO只能等待IO結(jié)束后才使用物理盤。
總之,參與RAID0 的物理盤會組成一個邏輯上連續(xù),物理上也連續(xù)的虛擬磁盤。控制器對虛擬磁盤發(fā)出的指令,被RAID控制器轉(zhuǎn)換為真實磁盤IO,再返回主機磁盤控制器,經(jīng)過控制器在cache中的組合,再提交給主機控制器。
RAID 0有非常明顯的缺點,沒有任何的備份,所以任何一塊硬盤損壞均會造成數(shù)據(jù)丟失。
RAID 1
RAID 0 最大的缺點是沒有備份盤。RAID 1 進行了改正。他采用了一塊用于正常使用,另一塊作為影子盤存在。
也就是寫數(shù)據(jù)的時候,會寫兩份。所以寫的時候的速度并不快,而且可用容量實際上就只有一塊盤,空間浪費很嚴重。
RAID 2
RAID 0 速度快,但是沒有備份,RAID 1 有備份,但是可用容量太少。
RAID 2 的改進在于引入了校驗盤的概念。當數(shù)據(jù)損壞的時候,可以根據(jù)校驗盤的數(shù)字,恢復原來磁盤上的數(shù)字。
RAID 2采用“漢明碼”來進行校驗,這種糾錯技術(shù)算法比較復雜,而且需要加入大量的校驗位,比如4位數(shù)據(jù)編碼,會加入3位校驗位。
同時數(shù)據(jù)存儲的時候,會把每個IO下的數(shù)據(jù)以位為單位強行打散在每個磁盤。
磁盤最小的IO單位是512B,如何寫入1bit?上層IO可以先經(jīng)過文件系統(tǒng),然后通過磁盤控制器驅(qū)動向磁盤發(fā)出IO。最終IO大小都是N倍的扇區(qū)。即使只要幾個字節(jié),也需要讀出整個扇區(qū)
所以每次必須所有聯(lián)動起來一次進行存儲,如果各磁盤的主軸沒有同步,則先讀出數(shù)據(jù)的硬盤需要等待。所以開銷也比較大。
正因為此,目前RAID2已經(jīng)不怎么使用了。
RAID 3
RAID 3引入了一種新的校驗算法,可以將數(shù)據(jù)盤中的每個位做XOR運算,然后將結(jié)果寫入到校驗盤的對應位置。任何一個扇區(qū)損壞,可以通過剩余的位和校驗位一起進行XOR運算來獲得丟失的位。
同時RAID 3 把條帶長度設(shè)置為4K字節(jié),因為一般文件系統(tǒng)剛好是4KB一個塊,所以如果用4塊數(shù)據(jù)盤,條帶深度為1KB,也就是2個扇區(qū)。這樣,可以保證連續(xù)寫的時候,以條帶為單位寫入,提高并行度。
所以RAID 2和RAID 3的每次IO都會牽動所有磁盤并行讀寫,每次只能做一個IO,不適合多IO并發(fā)的情況。
也說RAID 2和RAID 3適合IO塊大的情況
一般來說,RAID 3 的條帶長度= 文件系統(tǒng)的大小,就不會產(chǎn)生條帶不對齊的現(xiàn)象。減少碎片。
關(guān)于RAID 3的校驗盤有沒有瓶頸的問題
若一個邏輯塊是4KB,4+1塊盤,文件系統(tǒng)下發(fā)一個IO至少是以一個邏輯塊為單位的。所以文件系統(tǒng)下發(fā)一次IO,不管多大都是跨越了所有數(shù)據(jù)盤的。
連續(xù)
連續(xù)讀:尋道時間忽略,IOPS受限于傳輸時間,因為RAID 3 是把一個IO分散到N個數(shù)據(jù)盤上,即傳輸時間是單盤的1/N,即持續(xù)讀的性能是單盤的N倍。
持續(xù)寫:分擔到N個盤,也是單盤的1/N。因為每次IO寫,物理磁盤上的所有分塊都需要更新,包括校驗塊,就沒有瓶頸和熱點的區(qū)別。
隨機
隨機讀寫:多個盤同時換道,所以性能相對于單盤沒有提升。而且有的磁盤不是嚴格主軸同步的,會拖累。
并發(fā)IO:一次IO必定會占用所有的盤,其他的盤必須等待,所以根本不能并發(fā)IO。
總結(jié)起來就是RAID 3適合于連續(xù)大塊的讀和寫,不適合于隨機IO和并發(fā)IO。
RAID 4
- RAID 0屬于激進派,為了速度,根本不要備份。
- RAID 1屬于保守派,需要浪費一個鏡像的容量。
- RAID 2和RAID 3 屬于中庸派。
RAID 2和RAID 3已經(jīng)解決了校驗盤的問題,避免了一塊盤損壞數(shù)據(jù)全丟失的問題。但是對于無法得到并發(fā)IO的問題還沒解決。
RAID 2和RAID 3的思想是讓所有數(shù)據(jù)盤都參與起來。對于隨機小塊讀寫,每秒產(chǎn)生的IO數(shù)目很大,但是每個IO的請求數(shù)據(jù)長度卻很短,如果所有磁盤同一時刻都在處理一個IO,得不償失。不如讓這個IO直接寫入一塊磁盤,其他的做其他的IO。
方法有:
- 可以增加條帶深度,一個IO比條帶深度小,所以可以完全被一個磁盤所處理。直接寫入了一塊磁盤的Segment中。
- 增大數(shù)據(jù)的隨機分布性,不要連續(xù)在一塊磁盤分布,要和其他IO所用的磁盤不一樣。
所以 RAID 4 的改進是增加了條帶深度,RAID 4相對于RAID 3 性能幾乎沒有提升。但是至少讓它可以進行并發(fā)IO
RAID 5
RAID 4相對于RAID 3 性能幾乎沒有提升。而且因為每個IO必定會占用校驗盤, 所以校驗盤成為了瓶頸,而且是熱點盤,容易壞。
這樣看來RAID 4其實有些不倫不類。
RAID 4的關(guān)鍵錯誤在于忽略了校驗盤,每個IO不管怎么樣都會讀寫校驗盤的。
RAID 5的改進在于將校驗盤把校驗盤分割開,依附于數(shù)據(jù)盤。把條帶做得很大,保證每次IO不會占滿整個條帶。
2塊盤的RAID 5系統(tǒng),對于寫操作來說不能并發(fā)IO,因為訪問一塊盤的時候,校驗信息一定在另一塊盤中。同理,3塊盤也不能
所以最低可以并發(fā)IO的RAID 5 需要4塊盤,此時最多可以并發(fā)兩個IO,并發(fā)的幾率是0.0322。
RAID 5 磁盤數(shù)量越多,并發(fā)的幾率越大。
RAID 5與RAID 0相比
RAID 5 是繼RAID 0 , RAID 1以后又一個可以實現(xiàn)并發(fā)IO的陣式,但是比RAID 1更劃算,比RAID 0更安全。
- 容量方面:隨著磁盤數(shù)增加,RAID5浪費的是N分之一,而RAID永遠是二分之一。
- 性能方便:RAID 5和RAID 0都是使用條帶來提升性能,但是RAID 6又克服了RAID 0的無保護。
RAID 5與RAID 3相比
RAID 5的連續(xù)讀寫不如RAID 3,因為RAID 3 的條帶深度很小,每次IO可以牽動所有的磁盤為之服務。
RAID 5 每次IO一般只使用一塊數(shù)據(jù)盤,先放滿一個Segment,再去下一個磁盤的Segment存放,塊編號是橫向進行。
所以RAID 3在IO SIZE大的時候高性能,RAID 5在隨機IOPS大時有高性能。
RAID 5的缺點
RAID 5的缺點是寫懲罰:寫性能差,因為每寫一扇區(qū)就要產(chǎn)生其校驗扇區(qū),一并寫入校驗盤。
新數(shù)據(jù)過來,控制器立即讀待更新扇區(qū)的數(shù)據(jù),然后讀此條帶的校驗數(shù)據(jù)根據(jù)公式新數(shù)據(jù)的校驗數(shù)據(jù) = (老數(shù)據(jù) EOR 新數(shù)據(jù)) EOR 老校驗數(shù)據(jù) 得到新校驗數(shù)據(jù),然后寫到磁盤中。
所以每次寫入都需要更新校驗盤。浪費3個其他動作,也就是讀老數(shù)據(jù),讀老校驗數(shù)據(jù),然后寫新數(shù)據(jù)和校驗數(shù)據(jù),浪費了除了“寫新數(shù)據(jù)”之外的操作。
總結(jié):隨機并發(fā)IO和寫性能二者只能取其一。
RAID 5EE
RAID 5的缺點是不能壞兩塊盤,因為如果一塊盤壞了,可以用其他數(shù)據(jù)校驗出。
可在陣式中增加熱備盤,不參與組陣,只有在損壞的時候立刻頂替,其他盤恢復數(shù)據(jù)。如果此時有請求此盤的IO,則其他盤暫代。
RAID 6
同樣RAID 6也是為了解決RAID 5只能壞一塊盤的問題。
如果壞了兩塊盤,相當于存在兩個未知數(shù),要求解兩個未知數(shù)據(jù),一定需要另外一個不相關(guān)的等式來求解。
所以使用兩套算法各自算出一個等式,分別放在兩塊校驗盤中。
優(yōu)點是更安全,缺點是寫懲罰更大。
RAID 卡
軟件RAID運行于操作系統(tǒng)底層,將SCSI 或者IDE控制器提交上來的物理磁盤,虛擬成虛擬磁盤,再提交給卷管理程序。但是
軟件RAID :
- 占用內(nèi)存空間
- 占用CPU
- 無法把操作系統(tǒng)盤做成RAID :如果操作系統(tǒng)損壞了,就無法運行。
既然軟件這么多缺點,所以人們謀求用硬件來實現(xiàn)RAID的方法。
RAID卡就是利用獨立硬件來實現(xiàn)RAID功能的方法。
一般在SCSI卡上增加了額外的芯片用于RAID功能。
SCSI RAID卡上一定要包含SCSI控制器,因為其后端連接依然是SCSI的物理磁盤。
操作系統(tǒng)如何看待邏輯磁盤
RAID控制器向OS提交的是虛擬邏輯盤,而非所有的物理磁盤。每個邏輯盤對OS來說都是一塊單獨的磁盤。
比如安裝了2塊IDE磁盤和4塊SCSI磁盤,IDE直接連接到IDE接口,SCSI連接到PCI接口的SCSI卡上。
若無RAID,可以看到6塊硬盤。
可以通過RAID程序把兩塊IDE做成RAID 0 , 變成了2*80G = 160G的磁盤。
4塊SCSI磁盤做RAID 5,相當于3塊盤的容量,即216GB。
所以磁盤管理器其實可以看到兩塊硬盤,可以格式化為NTFS等文件格式。
與分區(qū)對比
與分區(qū)不同,分區(qū)是OS在物理磁盤上做再次劃分。而RAID 卡提供給OS的是任何時候是一塊或者幾塊的邏輯盤,也就是OS認為的物理磁盤。
OS在磁盤上還可以進行分區(qū),格式化。
LUN:條帶化以后,RAID程序操控SCSI控制器向OS層的驅(qū)動程序代碼提交虛擬化之后的虛擬盤。
RAID 控制器如何管理邏輯磁盤
RAID 卡可以對邏輯磁盤進行再次的劃分,既然要劃分,必須對某塊磁盤的某個區(qū)域劃分給那塊邏輯盤用心里有數(shù),所以有必要在每塊磁盤保留一個區(qū)域,記錄劃分信息、RAID類型以及組內(nèi)的磁盤信息。這種統(tǒng)一的RAID信息格式:DDF 。
RAID卡可針對總線上某幾塊磁盤做一種RAID類型,然后針對另幾塊磁盤做另一種RAID類型。
一種RAID類型包含的磁盤共同組成了一個RAID GROUP ,簡稱RG。
邏輯盤就是從RG劃分出來的,原則上不能跨RG來劃分,因為RG的RAID類型不一樣,性能就不一樣。
RAID 卡上的內(nèi)存
RAID卡上的內(nèi)存,有數(shù)據(jù)緩存和代碼執(zhí)行內(nèi)存的作用
RAID 控制器和磁盤通道控制器之間需要一個緩存來適配。適配不同速率的通信
緩存數(shù)據(jù)IO:緩存隊列,執(zhí)行或者優(yōu)化合并。
RAID卡的緩存
對于上層的寫IO,有兩種手段來處理;
- Write Back模式:將上層發(fā)來的數(shù)據(jù)保存在緩存中之后,立即通知主機IO完成,執(zhí)行下一個IO。實際上此時數(shù)據(jù)還在緩存中,沒有寫入磁盤。RAID卡在空閑的時候,一條一條或者批量寫入磁盤,其實是欺騙了主機。如果意外,數(shù)據(jù)丟失,上下數(shù)據(jù)不一致。需要使用電池來保護緩存。
- Write Through模式:只有在寫入到磁盤之后才會通知主機,但是緩存的提速作用沒有優(yōu)勢。緩沖作用依舊生效。
對于讀緩存:
- 有一種算法叫PreFetch:預取,讀緩存。其實就是認為主機下一次IO,有很大的幾率是讀取到所在磁盤位置的相鄰數(shù)據(jù)。所以在主機還沒發(fā)出讀請求的時候,就先把相鄰的數(shù)據(jù)讀到緩存中。對大文件應用很適用。
- 還有一種緩存算法:假設(shè)主機的下一次IO可能還會讀取上一次讀過的數(shù)據(jù)。讀了一段數(shù)據(jù)到緩存之后,如果數(shù)據(jù)被主機的寫IO更改了,不會立即寫入磁盤,而是留在緩存中。等到主機有一段時間不用了,則寫入磁盤中。
中高端的RAID卡一般有256M的RAM作為緩存。
卷管理層
到目前為止,我們已經(jīng)可以通過RAID卡對外呈現(xiàn)一個一個的邏輯盤了,但是邏輯盤存在一個非常大的問題就是不夠靈活。
如果一開始就劃分一個100G的邏輯盤,如果數(shù)據(jù)盛不下了,此時把其他磁盤上未使用的空間挪一部分到邏輯盤上。
但是從RAID卡里面增加邏輯盤容量很費功夫。即使實現(xiàn)了,上層文件系統(tǒng)也無法立刻感知到。所以對要求不間斷服務的服務器不適用。
歸根結(jié)底,因為RAID控制器是由硬件來實現(xiàn)RAID的,所以操作起來不靈活,如果OS把RAID控制器提交上來的邏輯盤,加以組織和再分配。就非常靈活,其實就是加一層靈活的管理層。
卷管理層:Volume Manager,LDM(邏輯磁盤管理)
LVM開始是Linux系統(tǒng)上的一種實現(xiàn),后來移植到AIX和HPUX等系統(tǒng)
- PV:OS識別的物理磁盤(或者RAID提交的),類似一塊面團
- VG:多個PV放到一個VG里面,VG(volume group)卷組。VG會將所有的PV首尾相連,組成邏輯上連續(xù)編址的存儲池。
- PP:物理區(qū)塊,Physical Partition,在邏輯上將一個VG分割為連續(xù)的小塊。(把一大盆面掰成大小相等的無數(shù)塊小面塊)。LVM會記錄PP的大小和序號的偏移。如果PV本身是經(jīng)過RAID控制器虛擬化而成的LUN,扇區(qū)可能是位于若干條帶中,物理上不一定連續(xù)。
- LP:邏輯區(qū)塊,可以對應一個PP,也可以對應多個PP,前者對應前后沒有什么區(qū)別。后者又分為兩種情況。
- 多個PP組成一個大LP,像RAID 0
- 一個LP對應幾份PP,這幾份PP每一份內(nèi)容一樣,類似RAID1。然后用一個LP來代表他們,往這個LP寫數(shù)據(jù),也就是寫到了這個LP對應的幾份PP中。
- LV:若干LP組成LV (邏輯卷),也就是LVM所提供最終可以用來存儲數(shù)據(jù)的單位。生成的邏輯卷,在主機看來還是普通的磁盤,可以進行分區(qū)和格式化。
大小可以隨時變更,也不需要重啟OS。前提是還有備用的PP。
操作很簡單:創(chuàng)建PV,加入VG ,創(chuàng)建LV,格式化,隨便擴展。
最大的好處:生成的LV可以跨越RAID卡提交給OS的物理或者邏輯盤。
卷管理軟件的實現(xiàn)
那么卷管理軟件到底怎么實現(xiàn)的呢?
LVM會記錄某塊物理盤的名稱、容量,誰是誰,從哪里到哪里是屬于這塊盤的,地址是多少等。這些信息記錄在磁盤某個區(qū)域,LVM中這個區(qū)域叫VGDA
LVM可以通過讀取每塊物理磁盤上的這個區(qū)域來獲得LVM的配置信息,比如PP大小,初始偏移,PV的數(shù)量,排列順序和映射關(guān)系等。
LVM初始化的時候讀取信息,然后在緩存中生成映射公式,從而完成LV的掛載。如果此時上層來一個IO,LVM就需要通過緩存中的映射關(guān)系判斷地址對應到實際物理磁盤的哪個地址。然后通過磁盤控制器驅(qū)動直接給這個地址發(fā)數(shù)據(jù)。這個地址被RAID控制器接收到了,還需要做一次轉(zhuǎn)換。
總之:卷管理軟件就是運行在OS磁盤控制器驅(qū)動程序之上的軟件,作用是實現(xiàn)RAID卡硬件管理磁盤空間所實現(xiàn)不了的靈活功能,比如隨時擴容。
磁盤在VM這一層處理之后,稱為卷更為恰當。因為磁盤控制器看待磁盤,就是盤片+磁頭,而卷管理軟件看待磁盤,會認為它是一個線性的大倉庫,而不管倉庫用什么方式存儲。
倉庫的每個房間都有一個地址(LBA),VM只需要知道一共有多少,讓庫管員(磁盤控制器驅(qū)動)從某段地址(LBA地址段)存取貨物(數(shù)據(jù)),那么庫管員立即操控機器(磁盤控制器)來各個房間取貨物(數(shù)據(jù)),這就是VM的作用。
** 即從底到上依次是:物理磁盤、磁盤控制器、IO總線、總線驅(qū)動、磁盤控制器驅(qū)動、卷管理程序**
在底層磁盤擴容之后,磁盤控制器驅(qū)動程序會通知VM已經(jīng)增大了多少容量
擴大、收縮卷需要其上的文件系統(tǒng)來配合。
MBR 和VGDA
分區(qū)管理是最簡單的卷管理方式,分區(qū)就是將一個磁盤抽象為一個倉庫,然后將倉庫劃分為一庫區(qū)、二庫區(qū)等。
分區(qū)管理和卷管理最大的不同在于,分區(qū)管理只能針對單個磁盤進行劃分,而不能將磁盤進行合并再劃分。
分區(qū)信息保存在磁盤上,位于LBA1這個扇區(qū),又稱為MBR也就是主引導記錄。
BIOS代碼都是固定的,所以必定要執(zhí)行MBR上的代碼,新出來的規(guī)范EFI可以靈活定制從那個磁盤的哪個扇區(qū)啟動,
MBR除了包含啟動指令代碼,還包含了分區(qū)表。啟動的時候,程序會跳轉(zhuǎn)到活動分區(qū)去讀取代碼做OS啟動。所以必須有一個活動分區(qū)。
卷管理軟件在劃分了邏輯卷以后同樣需要記錄卷怎么劃分的,使用一種叫VGDA的數(shù)據(jù)結(jié)構(gòu)。
高級VM沒有拋棄MBR,而是在此基礎(chǔ)上,增加了類似VGDA的這樣的數(shù)據(jù)結(jié)構(gòu)來動態(tài)管理磁盤。
文件系統(tǒng)
文件系統(tǒng)相當于理貨員,與庫管員一起完成管理糧庫的工作。
應用程序只需要告訴文件系統(tǒng)需要放多少的數(shù)據(jù)或者讀多少數(shù)據(jù),而文件系統(tǒng)不需要關(guān)心倉庫到底在那里,放到那個房間。
文件系統(tǒng)需要將數(shù)據(jù)存放在那里記錄下來。
如果存取的數(shù)據(jù)量大,每次記錄的數(shù)很大。將8個房間劃分為一個邏輯房間,稱作“簇”
數(shù)據(jù)如果找連續(xù)的簇進行存放,則還必須花時間把整理倉庫,整理出連續(xù)的空間來,所以不如在描述數(shù)據(jù)存放的方式,比如數(shù)據(jù) 10000 簇2,6,18,這樣就可以解決空間浪費的問題,而且不需要經(jīng)常整理庫。
但是這樣又存在一個問題,數(shù)據(jù)描述的方式變得長短不一,可以為了簡化處理,需要給一個定長的描述。比如數(shù)據(jù) 100000 首簇1,然后在在首簇做一個標記,寫明下一個簇是多少號,然后找到下一個簇,根據(jù)簇的路標,到下下個簇進行取貨,依此類推。
如果要尋找空的簇,只需要找格子上沒有寫字的簇即可。
總結(jié)一下,
描述貨物的三字段:名稱、數(shù)量、存放的第一個簇。
進一步優(yōu)化:
貨物雖然有可能存放在不連續(xù)的簇中,但是這些簇往往也是局部連續(xù)的。所以如果是一段一段的找而不是一簇一簇的找,會節(jié)約時間。比如簇段1~3,簇段5~7等等。
所以記錄數(shù)據(jù)存放信息的本子就是元數(shù)據(jù),也就是用來描述數(shù)據(jù)怎么組織的數(shù)據(jù)。
如果記錄本丟失,縱然貨物無損,也無法取出,因為無法判斷貨物的組織結(jié)構(gòu)了。
文件系統(tǒng)的IO方式
IO Manager是OS內(nèi)核中專門來管理IO的模塊,可以協(xié)調(diào)文件系統(tǒng)、磁盤驅(qū)動的運作,流程如下
- 應用調(diào)用文件系統(tǒng)接口
- IO Manager把請求發(fā)送給文件系統(tǒng)模塊
- 文件系統(tǒng)映射為卷的LBA
- 文件系統(tǒng)向IO Manager調(diào)用卷管理軟件模塊的接口
- 卷管理軟件將卷對應的LBA反映為實際的LBA,并請求調(diào)用磁盤控制器驅(qū)動程序。
- IO Manager向磁盤控制器驅(qū)動程序請求將對應的LBA段從內(nèi)存寫入到物理磁盤。
文件系統(tǒng)IO:
- 同步IO:進程調(diào)用了IO以后,必須等到下位程序返回信號,否則一直等待,被掛起。
- 如果下位程序沒有得到數(shù)據(jù)
- 阻塞IO:下位程序等待自己的下位程序返回數(shù)據(jù)。
- 非阻塞IO:通知上位程序數(shù)據(jù)沒收到。
- 異步IO:請求發(fā)出以后,執(zhí)行本線程的后續(xù)代碼,直到時間片到或者被掛起。這樣應用程序的響應速度不會受IO瓶頸的影響,即使這個IO很長時間沒有完成。
異步IO和非阻塞IO另一個好處:文件系統(tǒng)不需要等待及時返回數(shù)據(jù),可以對上次的IO進行優(yōu)化排隊。
Direct IO:文件系統(tǒng)有自己的緩存機制,數(shù)據(jù)庫也有緩存,IO發(fā)出之前已經(jīng)經(jīng)過自己的優(yōu)化了,如果又在文件系統(tǒng)層面再優(yōu)化一次,多次一舉。使用Direct IO以后IO請求、數(shù)據(jù)請求以及回送數(shù)據(jù)不被文件系統(tǒng)緩存,直接進入應用程序的緩存中,可以提升性能。此外,在系統(tǒng)路徑上任何一處引入了緩存,若采用write back模式,都存在數(shù)據(jù)一致性的問題,因為Direct IO繞過了文件系統(tǒng)的緩存,降低了數(shù)據(jù)不一致性。