自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="2vigq"></style>

<sub id="2vigq"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

分布式塊存儲的引擎如何設(shè)計？

作者：張凱 2018-10-16 14:26:22

存儲存儲軟件分布式

目前在萬兆網(wǎng)絡(luò)和SSD，包括NVMe SSD 都已經(jīng)非常普及。隨著硬件的速度越來越快，性能的瓶頸會從硬件轉(zhuǎn)移到軟件。尤其對于存儲引擎來說，性能至關(guān)重要。

本文是這個系列的第二篇，著重討論存儲引擎的需求、思考和設(shè)計。上一篇是《SDS之HCI系列：分布式塊存儲的研發(fā)如何設(shè)計元數(shù)據(jù)服務(wù)?》。

先來看一下我們會對數(shù)據(jù)存儲引擎模塊有什么樣的需求。

首先，肯定是還是可靠。因?yàn)槲覀兛蛻舻膽?yīng)用場景都大部分是核心的應(yīng)用，數(shù)據(jù)可靠是要絕對保證的，沒有任何妥協(xié)的空間。

其次是性能，目前在萬兆網(wǎng)絡(luò)和SSD，包括 NVMe SSD 都已經(jīng)非常普及。隨著硬件的速度越來越快，性能的瓶頸會從硬件轉(zhuǎn)移到軟件。尤其對于存儲引擎來說，性能至關(guān)重要。

除了追求絕對的性能以外，我們還希望能夠做到高效。我們希望每一個 CPU 指令都不被浪費(fèi)。我們追求用最少的 CPU 指令完成一次 IO 操作。這背后的原因是，存儲硬件設(shè)備越來越快，目前最快的存儲已經(jīng)可以做到單次訪問只需要 10 納秒。而如果程序中加一次鎖，做一次上下文切換，可能幾百個納秒就過去了。如果不做到高效的話，目前的 CPU 可能完全無法發(fā)揮出 SSD 的性能。除了高效的使用 CPU 以外，我們也要高效的使用內(nèi)存資源，網(wǎng)絡(luò)帶寬資源。同時，由于目前相同容量的 SSD 的價格還高于 HDD 的價格，所以我們也盡可能的節(jié)省磁盤空間的占用，通過利用壓縮，去重等技術(shù)，提高 SSD 的空間使用效率。

***，也是非常重要的一點(diǎn)，存儲引擎需要易于 Debug，而且要易于升級。對于軟件工程師來說，50% 以上的工作時間都是在做 Debug，而對存儲軟件工程師來說，這個比例可能更高。我們希望做一個非常易于 Debug 的軟件產(chǎn)品，如果發(fā)現(xiàn)問題，可以快速的定位并修復(fù)。升級也是一樣，現(xiàn)在軟件的迭代速度越來越快，我們希望軟件可以方便的易于升級，這樣我們可以讓用戶更快的使用上新版本的軟件，享受到新版本的功能，以及性能的優(yōu)化。

接下來，我們來看一下具體的實(shí)現(xiàn)。很多傳統(tǒng)的存儲廠商在實(shí)現(xiàn)存儲引擎的時候，往往會選擇把整個 IO 路徑的實(shí)現(xiàn)放在 Kernel Space 里面。例如在上圖中，上層是一個核心的存儲引擎，下層是文件系統(tǒng)，塊設(shè)備，以及驅(qū)動。由于網(wǎng)絡(luò)棧也是實(shí)現(xiàn)在內(nèi)核中的，把存儲引擎放在內(nèi)核里面就可以***化性能，減少上下文切換(Context Switch)。

但這種實(shí)現(xiàn)有很多非常嚴(yán)重的問題，首先就是難于 Debug。如果大家做過內(nèi)核開發(fā)，就會知道在內(nèi)核中 Debug 是一件非常麻煩的事情。而且開發(fā)語言也只能用 C，不能用其他語言。

同時，在內(nèi)核里面開發(fā)，升級會非常困難。一次升級，不管是 Bugfix，還是增加新功能，都可能需要重啟整個服務(wù)器，這對于存儲系統(tǒng)來說代價是非常巨大的。還有一個很重要的因素就是故障域非常大。Kernel 里面的模塊如果出問題，可能導(dǎo)致整個 Kernel 被污染，可能是死鎖，可能是 Kernel Panic。通常也是需要重啟服務(wù)器才能修復(fù)。

既然有這么多問題，那我們在設(shè)計的時候肯定不會選擇用 Kernel Space 的方式。我們選擇在 Userspace，也就是用戶態(tài)實(shí)現(xiàn)我們的存儲引擎。

在 User Space 實(shí)現(xiàn)，很多項(xiàng)目會選擇把存儲引擎構(gòu)建在 LSM Tree 的數(shù)據(jù)結(jié)構(gòu)上。LSM Tree 運(yùn)行在文件系統(tǒng)之上。User Space 和 Kernel 比起來更靈活，可以用各種語言;升級也很方便，只需要重啟一下進(jìn)程就可以，不需要重啟服務(wù)器;User Space 的故障只會影響到服務(wù)進(jìn)程本身，并不會影響到 Kernel 的運(yùn)行。但這種方式的問題就是性能不夠好，由于 IO 還是需要經(jīng)過 Kernel，所以會產(chǎn)生上下文切換，這個切換就會引入性能的開銷。

接下來，我們來說一下 LSM Tree。LSM Tree 的數(shù)據(jù)結(jié)構(gòu)以及實(shí)現(xiàn)我們在這里就做不詳細(xì)介紹了?？偟膩碚f，LSM Tree 是很多存儲引擎的核心。

LSM Tree 的好處就是實(shí)現(xiàn)起來是相對簡單的，有很多開源的實(shí)現(xiàn)可以參考，而且它對小塊數(shù)據(jù)寫入優(yōu)化做的非常好，會將小塊數(shù)據(jù)合并，并批量寫入。

然而 LSM Tree 并不是銀彈，它***的問題由于他的數(shù)據(jù)結(jié)構(gòu)而導(dǎo)致的『讀放大』和『寫放大』。這個問題會有多嚴(yán)重呢。我們可以來看一下這個圖(編者按：參見上圖)，這是一個對『讀寫放大』的測試結(jié)果。從圖中可以看到，如果寫入 1GB 的數(shù)據(jù)，最終會產(chǎn)生 3 倍的數(shù)據(jù)寫入量，也就是 3 倍的『寫放大』。如果寫入 100G 的話，則會被放大到 14 倍，也就是說如果寫 100G 的數(shù)據(jù)，實(shí)際上在磁盤上會產(chǎn)生 1.4TB 的寫流量。而『讀放大』會更加嚴(yán)重，在這個場景下會放大到 300 多倍。這就違背了我們最開始提到了我們希望提高硬件效率的訴求。

LSM Tree 雖然有各種各樣的好處，但是由于存在嚴(yán)重的『讀寫放大』問題，所以我們并不會采用LSM Tree 來做數(shù)據(jù)存儲引擎。我們可以借鑒 LSM Tree 中優(yōu)秀的思想，結(jié)合我們自己的需求，實(shí)現(xiàn)一套存儲引擎。這個包含了數(shù)據(jù)分配，空間管理，IO 等邏輯。

接下來，我們看到這個這個圖中還有一個文件系統(tǒng)。這個文件系統(tǒng)是實(shí)現(xiàn)在內(nèi)核中的，在塊設(shè)備之上。大家比較常見的文件系統(tǒng)包括 ext4，xfs，btrfs 等，很多存儲引擎也是實(shí)現(xiàn)在文件系統(tǒng)之上的。然而我們需要思考一下我們是否真的需要一個文件系統(tǒng)。

首先，文件系統(tǒng)所提供的功能遠(yuǎn)遠(yuǎn)多于存儲引擎的需求。例如文件系統(tǒng)提供的 ACL 功能，Attribute 功能，多級目錄樹功能，這些功能對于一個專用的存儲引擎來說，都是不需要的。這些額外的功能經(jīng)常會產(chǎn)生一些 Performance Overhead，尤其是一些全局鎖，對性能影響非常嚴(yán)重。

其次，大部分文件系統(tǒng)在設(shè)計的時候，都是面向單一磁盤的設(shè)計方式，而不是面向多塊磁盤的。而一般存儲服務(wù)器上都會部署 10 塊，甚至更多的磁盤，而且有可能是 SSD，有可能是 HDD，也可能是混合部署。

第三，很多文件系統(tǒng)在異步 IO 上支持的并不好，盡管支持異步 IO 的接口，但實(shí)際使用過程中，偶爾還是會有阻塞的情況發(fā)生，這也是文件系統(tǒng)里一個非常不好的地方。

***一個問題，文件系統(tǒng)為了保證數(shù)據(jù)和元數(shù)據(jù)的一致性，也會有 Journaling 的設(shè)計。但這些 Journaling 也會引入寫放大的問題。如果服務(wù)器上掛載了多個文件系統(tǒng)，單個文件系統(tǒng)的 Journaling 也無法做到跨文件系統(tǒng)的原子性。

最終我們在設(shè)計存儲引擎的時候，我們選擇了拋棄文件系統(tǒng)，拋棄 LSM Tree，自己在做一個理想中的存儲引擎，去掉不必要的功能，盡可能的避免寫放大。把我們想要的功能直接實(shí)現(xiàn)在塊設(shè)備上。

我們并沒有想要自己實(shí)現(xiàn) Block Layer 這一層，這是因?yàn)?Linux Kernel 中，Block Layer 是非常薄的一層，里面實(shí)現(xiàn)的算法也非常簡單，這些算法也都有參數(shù)可調(diào)，也都有辦法關(guān)閉掉，所以不會有太多額外的性能開銷。

左邊這個圖就是 ZBS 目前的實(shí)現(xiàn)方式。但這種方式***的問題還是性能，Block Layer 和 Driver 都運(yùn)行在 Kernel Space，User Space 的存儲引擎的 IO 都會經(jīng)過 Kernel Space，會產(chǎn)生 Context Switch。未來我們會轉(zhuǎn)向右邊這個圖的方式，通過 SSD 廠家提供的 User Space 驅(qū)動，結(jié)合 PMD(Poll Mode Driver)引擎，以提供更好的性能。

接下來，我們看一下 ZBS 的 User Space 存儲引擎具體的實(shí)現(xiàn)。

IO Scheduler 負(fù)責(zé)接收上層發(fā)下來的 IO 請求，構(gòu)建成一個 Transaction，并提交給指定的 IO Worker。IO Worker 負(fù)責(zé)執(zhí)行這個 Transaction。Journal 模塊負(fù)責(zé)將 Transaction 持久化到磁盤上，并負(fù)責(zé) Journal 的回收。Performance Tier 和 Capacity Tire 分別負(fù)責(zé)管理磁盤上的空閑空間，以及把數(shù)據(jù)持久化到對應(yīng)的磁盤上。

責(zé)任編輯：武曉燕來源：樂生活與愛IT

分布式塊存儲引擎

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營