本工作來自上海交通大學/華為陳海波老師團隊,發表于ATC 2019。
01動機及背景
EROFS是一個針對移動設備的只讀壓縮文件系統。作者觀察到,當前手機配備的存儲空間不大,而安卓系統的系統分區、各種app占用的空間越來越大。導致用戶的實際可支配空間越來越小。如圖所示,安卓系統的/system分區從2.3.6的184MB增長到了9.0.0的1.9GB。為了盡可能增加用戶的可用空間,對系統分區使用壓縮文件系統是最優解。
文章對比了兩個最常見的壓縮文件系統,Btrfs和Squashfs。其中,Btrfs是一個B樹文件系統,在使能壓縮功能后,文件數據每128KB進行壓縮存儲,由于Btrfs是一個通用文件系統,同時支持讀寫功能,因此為數據修改效率妥協了數據壓縮率,且在數據解壓時會占用大量的內存空間。
Squashfs是一個只讀壓縮文件系統,壓縮塊大小4KB-1MB可調,由于安卓的/system分區幾乎不需要修改的特性,只讀文件系統比Btrfs更合適。然而,Squashfs同樣存在嚴重的問題,在解壓過程中squashfs會產生大量的CPU和內存開銷,在資源緊張的移動設備上性能下降嚴重。
為了研究squashfs性能下降的原因,文章進行了進一步分析。第一個原因是壓縮輸入塊大小固定,導致了的壓縮輸出數據大小不同,因此導致了可觀的讀放大,如下圖所示,以128K壓縮輸入大小為例,壓縮后數據存放在SSD的blk1-blk7中,若要讀取4KB數據,則需要首先讀取blk1-blk7共7塊,解壓得到128K原始數據后,只取其中4KB所需數據,這就導致了7倍的讀放大。
第二個原因是在解壓過程中大量的內存占用和數據搬運開銷,在解壓過程中,squashfs需要大量的臨時內存用于解壓,另外,解壓過程中,數據需要多次搬運,造成大量的CPU開銷。
這兩個缺陷引出了兩個關鍵思考:如何在減小讀放大的同時盡可能少的降低壓縮率?如何在解壓過程中盡可能少占用內存?
02EROFS的設計與實現
固定壓縮輸出塊大小
為了產生固定大小的壓縮輸出塊,EROFS在生成鏡像時使用滑動窗口法調整壓縮算法輸入的原始數據大小。固定輸出塊大小具有多種優點。首先,固定輸出塊大小壓縮率更高;第二,讀取數據時僅需要讀取包含目標數據的塊,也就是說一塊數據最多僅需要兩次讀操作,相較squashfs,讀放大顯著縮小。
靈活的原始數據存儲
在實際解壓前,EROFS可以使用兩種方式存放原始壓縮數據。當數據僅部分解壓時,EROFS使用緩存式IO,即在發送讀請求前為申請一塊特殊inode的頁緩存,并將原始壓縮數據讀入這一塊緩存中,當再次觸發讀請求并且讀區域正好落入當前壓縮塊時,即可省去一次IO。若壓縮數據需要全部解壓,EROFS則使用在位IO方式,即將原始壓縮數據直接讀入VFS分配的存放解壓后數據的頁緩存中。
多種解壓策略結合
EROFS設計了四種解壓后數據的存放方式。
1.Vmap存放,即使用vmap方法將申請的臨時緩存和VFS分配的緩存作為連續的虛擬地址作為解壓的目標地址。這種方式有兩個缺點:第一需要動態申請內存,增加內存壓力;第二每次解壓都使用vmap和vunmap效率低下。
2. Per-CPU緩沖存放,即使用提前為每個CPU分配的緩存作為解壓數據的存放地址,這種解壓方式僅在解壓數據小于4頁時使用。
3.滾動存放,即使用EROFS預先申請的16物理頁內存存放解壓數據,當解壓數據超出16頁時,則滾動回第0頁覆蓋其數據繼續解壓。
4.在位解壓,即解壓后的數據和原始壓縮數據放置在同一段內存空間,這種解壓方式僅在確定解壓過程中不會出現解壓后數據覆蓋還未解壓數據時才可以使用(在mkfs時會判斷是否會覆蓋,并記錄在inode中)。
根據四種不同解壓后數據存放方式的特點,設計解壓策略如下圖所示。
03優化
索引優化:一個壓縮塊中可能存在數百頁原始數據,在解壓時這些頁的索引會占據大量內存,因此若VFS分配的頁中存在多余的可重用頁,則將壓縮塊存儲在可重用頁,這樣可以避免重復讀取,同時減少內存占用。
調度優化:傳統壓縮文件系統如Btrfs使用一個獨立的解壓線程進行數據解壓,這樣會帶來調度開銷,EROFS將解壓工作放在讀者線程執行,以避免解壓線程的調度開銷。
協同解壓:若多個線程的讀取落入同一個壓縮塊內,則僅由一個線程解壓一次,其余線程共用數據,避免重復解壓。
鏡像補丁:使用增量補丁方式,EROFS可以支持少量補丁存在。在文件讀取時,EROFS先讀取鏡像內文件原本內容,再讀取補丁中覆蓋內容進行更新。
04評估
評估平臺使用了hikey960開發板。評估方式采用了fio和enwik9數據集,fio分別執行順序讀取、隨機讀取、條帶讀取(每128KB讀取4KB)進行基準測試。
測試結果如下圖所示,在壓縮文件系統中,btrfs表現最差,在每次讀取無法落入緩沖的條帶讀取測試中,squashfs-128K下降明顯,而EROFS的性能與squashfs-4K類似,接近非壓縮的ext4和f2fs。
壓縮率、內存占用測試
使用enwik9和silesia.tar兩個數據集測試幾個文件系統的壓縮率。測試結果如圖所示。可以看出,EROFS壓縮率和squashfs-16K接近,低于squashfs-128K,壓縮率接近0.5,可以節省接近一半的空間。
內存壓縮測試方式為:開機、掛載文件系統,讀取整個測試文件,查看內存占用情況。測試結果如下圖所示。可以看出,EROFS的內存占用僅略高于非壓縮文件系統的ext4,遠低于squashfs。
實際環境測試
將安卓系統的/system;/vendor;/odm分區使用erofs,分別節省了30%-35%的空間,開機時間縮短2.3%。測試打開相機應用花費時間,92次測試累計分布如圖所示。可以看出,EROFS的應用開啟時間和ext4基本相同,甚至略優于ext4。
總結
EROFS作為一個為資源有限的移動設備設計的只讀壓縮文件系統,在保證較高壓縮率的同時提供了高性能讀取、低內存占用。在測試中,開啟時間甚至略快于ext4。目前EROFS已并入linux主線內核,并且大規模部署在智能手機上。
審核編輯:湯梓紅
-
cpu
+關注
關注
68文章
10901瀏覽量
212682 -
壓縮
+關注
關注
2文章
102瀏覽量
19396 -
文件系統
+關注
關注
0文章
287瀏覽量
19937
原文標題:聊聊只讀壓縮文件系統
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論