閃存SSD基本成為當前IT基礎設施中必不可少的元素。高IOPS、低延時和高帶寬是SSD的顯著特點,單塊SSD的IOPS可以達到數萬甚至百萬之多,帶寬達到數GB/s,而延遲僅為幾十微秒,性能完全可以和高端存儲相媲美。SSD有效消除了計算和存儲的巨大鴻溝,解決了I/O性能瓶頸問題,尤其是I/O隨機讀寫能力。
在計算機系統中,CPU中有L1,L2、甚至有L3 Cache;Linux有Page Cache,MySQL有BufferCache/QueryCache;IO系統中RAID卡/磁盤也有Cache;在大型互聯網系統中,數據庫前面一般也都有一層MemCache。Cache是容量與性能之間取得平衡的結果,以更低的成本,獲得更高的收益,是系統設計應遵循的原則。
目前閃存的價格已經逼近SAS硬盤,但相對SATA硬盤還是要高于許多,迫于成本因素,全SSD存儲方案應用仍然較少,多數應用以SSD混合存儲配置為主,從而獲得較高的性價比。通常情況下,我們假設熱點數據占10-20%,配置相應比例的SSD存儲,采用Cache加速或Tier分層模式將熱點數據存儲在SSD存儲中,一旦熱點數據超過預先設置閾值或觸發遷移策略,則按相應淘汰算法將較冷數據遷回HDD磁盤存儲,從而期望在性能和容量方面達到整體平衡。
當然混合存儲也并非完美。SSD擅長的隨機讀寫,帶寬并不是它的強項,對于帶寬型應用,SSD對性能并沒有太大幫助,HDD存儲也容易堆疊起來。關于熱點數據占比,這個并不好估計,如果SSD配置不足,性能會變得更差,SSD被寫滿時性能可能會出現較大的波動。因此,實際應用中要結合I/O特點設計合理的混合存儲模式,如果實在不合適,還是推薦使用全SSD存儲,或者人工將應用負載分配到SSD或HDD存儲中。
MaxIO簡介MaxIO是一款SSD智能緩存加速軟件,利用I/O訪問的局部性原理,采用SSD作為傳統塊設備的緩存,充分利用SSD的I/O特點和性能優勢,專門針對慢速的HDD塊存儲進行高效加速。MaxIO幾乎可以為任何塊設備創建緩存并提升性能,包括物理磁盤、基于RAID的DAS設備、SAN卷、Device Mapper卷,甚至軟RAID。
MaxIO采用了獨特且高效的緩存技術來加速企業級存儲應用,對I/O進行智能分析,根據加速設備SSD的大小,將更多更常用的熱點數據放置于高速SSD介質中,有效縮短應用等待數據的時間。MaxIO支持多種靈活的加速模式,針對不同的業務場景,可發揮不同的加速效果,包括透寫(Write Through)、回寫(Write Back)和只讀(Read Only或Write Around)三種加速模式。
MaxIO可以部署在任意X86硬件上,包括服務器和軟件定義存儲系統,因此可以在存儲層和計算層靈活實現加速,且僅占用極少的系統CPU和內存資源,能夠采用SSD為更多的應用提供I/O性能加速。MaxIO采用透明加速配置,可在線增加或刪除加速模塊,應用無需做任何配置更改,因此對企業應用場景不產生任何干擾。MaxIO具有友好的硬件兼容性,廣泛支持各個廠商的SATA/SAS/PCIe/NVMe SSD。
MaxIO架構
工作原理SSD Cache的基本原理很簡單(如下圖所示),利用I/O訪問的局部性原理,將熱點數據放置在SSD上,下次再次訪問熱點數據時,不需要經過傳統硬盤的處理,而是直接在SSD上命中,極大的縮短IO響應時間。
SSD Cache的實現方式有多種,基于Linux內核機制的實現主要有DM-Cache與IO攔截兩種方式,其中Flashcache是DM-Cache實現方式的典型代表,而MaxIO采用的是IO攔截實現方式。值得一提,正是因為沒有采用Device Mapper機制,MaxIO不用創建新的DM設備,從而可以實現對應用進行靈活的透明加速。
Device mapper是Linux內核中提供的一種從邏輯設備到物理設備的映射框架機制,在該機制下用戶可以很方便地根據需要制定實現存儲資源的管理策略。Device mapper在內核中是作為一個塊設備驅動被注冊的,它包含mapped device、映射表、target device三個重要對象概念。Device mapper本質功能就是根據映射關系和target driver描述的IO處理規則,將IO請求從邏輯設備mapped device轉發相應的target device上。DM-Cache正是利用了Device Mapper這一原理。將HDD 磁盤與SSD硬盤作為DM中的Target Device,聚合成為一個虛擬設備(Cache設備),同時將HDD磁盤與SSD硬盤Block進行映射。Dm-Cache根據映射規則,可以將對HDD磁盤的操作轉換為對SSD硬盤的操作,從而實現將熱點數據存儲在SSD中的功能。HDD磁盤對SSD硬盤Block的映射,可以為簡單的線性映射,也可以采用Hash映射。
IO攔截Cache實現的基本原理是對Linux通用塊層BIO請求進行攔截,在Block Layer實現某些分發函數的鉤子函數,同樣需要將磁盤Block與SSD硬盤Block進行映射,根據映射規則以及操作類型決定是否將磁盤操作轉換為對SSD硬盤的操作。如在write-around模式中,則只需要對讀操作進行處理:根據映射規則,首先查看Block是否存在SSD中,如果不存在,則從HDD中讀取,并寫入到SSD中,然后返回;如果已經存在SSD中,則直接將讀請求轉換為對SSD映射Block的讀請求。
如上圖軟件架構所示,MaxIO緩存引擎主要由三個核心組件組成:
元數據管理引擎:管理內存中的元數據,維護高速緩存塊映射表;
緩存策略引擎:管理SSD緩存的I/O讀寫和替換策略;
數據遷移引擎:管理SSD緩存中的數據遷入和遷出;
MaxIO以固定大小的數據塊為單位進行緩存加速,緩存策略包括只讀(Read-only或Write-around)、寫回(Write-back)和寫穿(Write-through)。數據塊存儲在SSD緩存中,直到被緩存的新數據塊所替換, 替換策略有LRU、FIFO和Random可供選擇。
MaxIO還包括兩個重要的子組件:性能分析器和GUI / CLI管理工具。性能分析器跟蹤和分析緩存性能,輸出信息可以幫助管理員監控緩存效果和調整和緩存策略。MaxIO有兩種模式管理工具:可視GUI工具和命令行CLI工具,滿足不同管理員需要和喜好。MaxIO的模式引擎是模塊化的,允許動態創建和變更緩存配置,可以使用CLI或GUI更改緩存策略(Read-only、Write-back和Write-through)和替換策略(FIFO,LRU和Random)。
元數據管理MaxIO元數據引擎將SSD中的高速緩存集映射到源塊設備扇區集合上,每個高速緩存集為2MB,支持2KB/4KB/8KB緩存塊大小,緩存塊默認大小為4KB,每個緩存集包含512塊。選擇默認值4KB,因為大多數存儲系統的通用I/O塊大小也是4KB。假設800GB SSD,包含400K個緩存集(1組=2MB(512*4KB))。MaxIO內置了性能分析器可以為選擇緩存塊大小提供參考數據,性能分析器可以運行多次,每次使用不同的塊大小,以確定不同的塊大小對MaxIO性能的影響,從而根據實際應用場景選擇合適的塊大小以獲得最佳的性能加速效果。
高速緩存的元數據運行時存儲在系統內存,以提供高速緩存頁最快的映射。為了確保這不會對應用程序的性能造成負擔,MaxIO已被設計為非常高效地使用內存頁。高速緩存所需的內存約為高速緩存大小的0.1%,比如800GB高速緩存僅需要占用800MB系統內存。元數據的副本存儲在緩存SSD中以幫助熱啟動,當高速緩存被禁用時,內存中的元數據被寫入SSD,使得當高速緩存被重新啟用時,其數據可立即使用。
緩存策略緩存策略就是SSD高速緩存的I/O操作方式,不同的緩存模式將決定系統的性能。緩存模式描述緩存如何處理從主機到HDD的讀取和寫入操作,處理器從HDD讀取數據塊時,該數據的副本被寫入SSD高速緩存。如果高速緩存中存在空塊,則將新塊寫入空塊中的一個;如果高速緩存已滿并且沒有用于該數據的空間,則按照設置的緩存替換策略從高速緩存中驅逐舊塊,新的塊被寫在被逐出的塊空間上。MaxIO支持三種緩存策略:只讀、透寫、回寫。
只讀(Read-only)
Read-only模式只對讀操作進行緩存,寫操作不緩存。對于寫請求,寫入數據未存在緩存中時,直接寫入HDD,高速緩存將忽略該數據;如果寫入數據在高速緩存中存在,為保證數據一致性該高速緩存塊被置為無效。對于讀操作,如果在SSD中命中則直接返回,未命中則將數據復制到SSD中。這種模式非常適合讀多寫少的場景。只讀模式讀寫流程如上圖所示:
寫流程:寫操作不緩存,則直接寫HDD普通硬盤。即為:寫1;
讀流程:讀流程是需要分為以下2種情況:
(1) 讀的數據緩存在SSD設備中,數據可能是之前讀或者寫的數據(緩存到SSD中的),此時可以直接將SSD數據返回。流程為讀3;
(2) 讀的數據沒有緩存在SSD設備中,數據可能是第一次讀取,也可能是之前讀的數據但是已經被覆蓋,此時,首先需要將數據從磁盤上讀取到SSD中,然后從SSD中將數據返回。流程為讀1->讀2->讀3。
透寫(Write-through)
Write-through模式下,對于讀數據,全部緩存到高速設備SSD設備上;對于寫操作,也緩存到高速設備SSD中,同時也寫入到HDD中。這種模式比較適合讀多寫少,并且寫的數據是最近訪問的熱點數據場景。這種模式因為寫也同時寫到HDD中,所以寫的性能得不到加速,但是數據最安全。透寫模式讀寫流程如上圖所示:
寫流程:SSD與HDD均需要寫入,所以寫1與寫2操作都是需要的。
讀流程:需要分為以下兩種情況處理
(1) 讀的數據緩存在SSD設備中,數據可能是之前讀或者寫的數據,此時可以直接將SSD數據返回。流程為讀3;
(2) 讀的數據沒有緩存在SSD設備中,數據可能是第一次讀取,也可能是之前讀或者寫的數據但是已經被覆蓋,此時,首先需要將數據從磁盤上讀取到SSD中,然后從SSD中將數據返回。流程為讀1->讀2->讀3。
回寫(Write-back)
Write-back回寫模式下,讀寫操作都在SSD首先執行。寫請求數據會被寫入SSD緩存中,不會立即寫入HDD,當SSD中的臟數據(與HDD中不一致的數據)達到預先設定的閾值,會將臟數據同步到HDD中;讀請求和只讀或透寫模式處理類似。這是三種模式中讀寫性能最高的,因為寫操作直接寫入SSD而不是HDD,對剛剛寫入的塊的讀取操作將由SSD提供而不是HDD。透寫模式讀寫流程如上圖所示:
寫流程:寫流程分為以下2種情況:
(1) 寫的數據滿足緩存要求,此時只需要將SSD中的數據改寫為最新的數據即可。流程為寫2;
(2) 寫的數據不滿足一些特定的要求(如不對齊等情況),此時則直接將數據寫入到HDD普通硬盤中;流程為寫1;
讀流程:讀流程是分為以下2種情況:
(1) 讀的數據緩存在SSD設備中,數據可能是之前讀的數據(緩存到SSD中的),此時可以直接將SSD數據返回。流程為讀3;
(2) 讀的數據沒有緩存在SSD設備中,數據可能是第一次讀取,也可能是之前讀的數據但是已經被覆蓋,或者是之前寫的數據但是被同步到HDD普通硬盤上,此時,首先需要將數據從普通磁盤上讀取到SSD中,然后從SSD中將數據返回。流程為讀1->讀2->讀3。
在write-back模式中,不得不提及到數據回寫的過程。數據回寫指的是將SSD中的臟數據同步到HDD硬盤中,這個只有在write-back模式中才有。一般數據回寫會有一些系統參數,如閾值(即臟數據達到一定的比率才會開始執行數據回寫);時效時間(數據超過一定時間無操作,則可以執行數據回寫);數據回寫的速率(因為從SSD中獎數據寫入到HDD中,速度較慢,需要考慮回寫的速率限制)等參數。回寫數據的時機與速率會很大程度上影響寫的性能,如果閾值設置的非常高,則當到達閾值后,數據回寫的速度會遠遠低于數據寫入到SSD中的速度,這就會造成SSD中并沒有充足的空間給新寫入的數據,導致寫會直接寫入到HDD硬盤中,無法實現寫加速。因此在設置數據回寫相關的參數時,需要根據實際的情況適當的調整參數。
緩存模式對比Write-back模式簡化讀取和寫入,具有最短的寫延遲,擁有最佳讀寫吞吐性能,是唯一對寫操作有加速作用的模式,適用于數據更改頻繁的應用;Write-through模式在寫密集型應用程序中可以大幅度提升讀取最近寫入數據的性能;Read-only模式和Write-through策略在讀取密集型應用中具有相同的讀取性能。
各廠商生產的SSD具有不同寫入性能,但是在不同寫入策略下速度的差異卻是不太明顯的,Write-through和Write-back策略比Read-only策略通常提供更好的性能,但有時寫IOPS規格比較低的SSD在Read-only策略下可能比其他兩種策略性能發揮的更好。
從數據安全性角度來看,Read-only和Write-through模式中,SSD不會保存臟數據,數據的所有更新都是實時寫入到硬盤的,任何時候SSD發生損壞,業務都無需中斷,應用數據也不會損壞。Write-back模式提供最佳的性能體驗,但是會保存一定比例的臟數據,為了防止電源或SSD故障時導致數據不完整或丟失,需要配置相關的預防措施,比如利用多塊SSD組成RAID1或者RAID5保障數據安全。
替換策略高速緩存設計的另一個關鍵方面是替換策略。當緩存需要保存一個新數據塊,這時可能需要將一個塊從高速緩存中移除,緩存如何選擇移除哪個塊?理想情況下,高速緩存選擇一個在將來最不可能訪問的那個塊,并且將該塊替換為對當前任務需要立即訪問的數據塊。然而,除非進行大量的分析預測,基于過去的I/O模式準確地判斷未來的應用讀寫行為,是非常困難的。高速緩存需要一種可以處理這種情形的合理的替代策略,典型的替換策略包括RANDOM、FIFO和LRU。在實際中需要根據具體的應用場景選擇合適的替換策略,保證最大的可能性使熱點數據最大程度的保留在SSD中,讓SSD的性能優勢發揮到最大。
RANDOM:隨機替換策略。該策略的實質就是,當需要替換SSD中的block時,用軟硬件的隨機數產生SSD要替換Block的序號。Random替換策略并不考慮被替換塊當前是否為熱點,這種策略很少使用。
FIFO(First In First Out):先進先出策略,這是一種最簡單的替換策略。這種策略的實質就是總是選擇在SSD中停留時間最長的block置換,即新進入SSD的block,先替換。理由是:最早被寫入SSD中的block,其不再被讀/寫的可能性最大。這種策略只是在按線性順序訪問地址空間時才是理想的,否則效率不高。
LRU(Least Recently Used):最近最久未使用策略。該策略的實質是,當需要置換SSD中的block時,選擇在最近一段時間里最久沒有使用過的Block予以置換,這些塊在將來也最不可能被訪問。LRU策略是與每個Block最后使用的時間有關的,由于該策略實現復雜,有一種LRU近似的策略NUR(Not Recently Used)最近未使用算法。LRU替換策略在絕大多數情形下都比隨機或FIFO策略執行得更好,通常作為缺省替換策略被普通采用。
MaxIO特性
透明緩存MaxIO不使用DM設備映射器,而是采用IO攔截的實現方式,從而實現了透明緩存加速。這個特性帶來的好處是,SSD緩存可以根據需要動態配置,而應用無需做任何配置更改,因此對企業應用場景不產生任何干擾。HDD硬盤使用時可以創建SSD緩存對其加速,也可以在不需要的時候隨時刪除高速緩存。另外,創建緩存時,不管是HDD還是SSD,都可以使用整個設備或分區。
大I/O支持MaxIO對I/O處理方式進行了修改,不會將大的I/O請求分割為以緩存塊大小為單位的多個請求。比如64KB的讀寫請求,MaxIO不會像諸如flashcache緩存系統把它拆分成16個4KB的小I/O請求。這個優化使得大I/O性能得到顯著改進。
小內存占用MaxIO中每個SSD緩存塊元數據僅占用4個字節,這使得系統內存消耗只有SSD容量的0.1%(1/1000)。對于1TB SSD,MaxIO只需占用約1GB的元數據內存開銷。這也使得創建大容量的SSD緩存成才可能。
數據塊對齊 MaxIO將所有元數據和數據塊4K對齊地寫入SSD,實現最小化寫放大和對閃存磨損,同時還可以提高性能。
高數據安全MaxIO在以Read-only或Write-through模式使用時,可以在不停止系統操作的情況下移除SSD,或者在SSD完全故障情況下繼續工作。如果刪除緩存SSD,系統只是簡單地回到添加緩存之前的性能級別。出現故障時,對HDD的I/O請求可以繼續正常處理。性能可能下降,但應用程序不會收到任何IO錯誤。SSD設備在Write-back模式下,出現故障可能導致丟失緩存中的臟數據塊。為了防止這種數據丟失,可以將SSD設備通過RAID 1鏡像實現高可用。
MaxIO局限性
(1) Linux平臺為主。MaxIO目前主要以Linux平臺為主,尤其是Redhat/CentOS 6.x/7.x系統,其他Linux/Unix平臺需要定制或移植,不支持Windows平臺。
(2) 讀緩存預熱。緩存創建后,通常需要一段時間預熱緩存,尤其是讀緩存。只有熱點數據進入SSD,才能獲得較高的緩存命中率。
(3) 緩存過量寫入。MaxIO在只讀模式下,在特定場景下引起過量的數據寫入緩存,比如數據備份、碎片整理、文件搜索等。這會導致緩存命中率極低,使得緩存失效。
(4) 順序I/O無效。MaxIO重點是對隨機讀寫I/O的緩存和加速,而對大塊順序讀寫基本是無效的。一旦檢測到順序I/O讀寫邏輯,MaxIO就會跳過SSD,直接對HDD進行操作。
-
閃存
+關注
關注
16文章
1799瀏覽量
115052 -
SSD
+關注
關注
21文章
2883瀏覽量
117675 -
IOPs
+關注
關注
0文章
11瀏覽量
14313 -
HDD
+關注
關注
0文章
147瀏覽量
27500
原文標題:SSD緩存軟件核心技術剖析
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論