引言
隨著云原生應(yīng)用對(duì)可遷移性、擴(kuò)展性和動(dòng)態(tài)特性的需求,對(duì)云原生存儲(chǔ)也帶來(lái)了相應(yīng)的密度、速度、混合度的要求,所以對(duì)云存儲(chǔ)基本能力之上又提出了在效率、彈性、自治、穩(wěn)定、應(yīng)用低耦合、GuestOS 優(yōu)化和安全等方面的訴求。
新的企業(yè)負(fù)載/智能工作負(fù)載容器化、遷云、存儲(chǔ)方面遇到的性能、彈性、高可用、加密、隔離、可觀測(cè)性及生命周期等方面的問(wèn)題,不但需要存儲(chǔ)產(chǎn)品層次的改進(jìn),還需要在云原生的控制/數(shù)據(jù)平面的改進(jìn),推進(jìn)云原生存儲(chǔ)和云存儲(chǔ)的演進(jìn)。下文將分別介紹一下問(wèn)題場(chǎng)景及問(wèn)題,探討可行的解決方案,最終可以得出云原生存儲(chǔ)、云存儲(chǔ)目前可以做什么和未來(lái)還需要做什么。
存儲(chǔ)性能
1. 長(zhǎng)時(shí)延增加
場(chǎng)景
高性能計(jì)算場(chǎng)景中,集中處理批量數(shù)據(jù),通過(guò)容器集群,同時(shí)啟動(dòng)數(shù)千 Pod,彈出數(shù)百 ECS 對(duì)共享性文件系統(tǒng)讀寫(xiě)。
問(wèn)題
重負(fù)載終負(fù)載下時(shí)延增加,高延遲毛刺增多,讀寫(xiě)穩(wěn)定性不足。
解決方案
分散負(fù)載到多文件系統(tǒng),通過(guò)容器編排分散 IO 到多文件系統(tǒng)
存儲(chǔ)產(chǎn)品的盤(pán)古 2.0 改造
2. 集中式高吞吐寫(xiě)對(duì)共享存儲(chǔ)池沖擊
場(chǎng)景
高性能計(jì)算場(chǎng)景中,集中處理批量數(shù)據(jù),10Gbps 讀寫(xiě)請(qǐng)求進(jìn)入同一存儲(chǔ)集群。
問(wèn)題
同一存儲(chǔ)集群中的帶寬擠占,造成訪問(wèn)質(zhì)量下降。
解決方案
分散負(fù)載到多文件系統(tǒng)和多個(gè)存儲(chǔ)集群/多個(gè)可用區(qū),通過(guò)容器編排分散 IO 到多文件系統(tǒng);
使用獨(dú)占高性能并行文件系統(tǒng)。
**3. 峰值吞吐不足**
場(chǎng)景
大規(guī)模生物數(shù)據(jù)處理,文件數(shù)目少,峰值吞吐高 10Gbps-30Gbps,請(qǐng)求密集 1W/s。
問(wèn)題
接近獨(dú)占集群的極限帶寬。
解決方案
讀寫(xiě)分流,分流讀請(qǐng)求到 OSS,寫(xiě)請(qǐng)求負(fù)載分流到獨(dú)占文件系統(tǒng)和本地/遠(yuǎn)程塊存儲(chǔ),通過(guò)容器編排分散 IO 到多文件系統(tǒng);
使用應(yīng)用層分布式緩存降低網(wǎng)絡(luò)讀 IO;
存儲(chǔ)產(chǎn)品的盤(pán)古 2.0 改造。
時(shí)延增加導(dǎo)致 GPU 等待
場(chǎng)景
多機(jī)多卡 GPU 訓(xùn)練,直接讀取 OSS 數(shù)據(jù),讀密集型。
問(wèn)題
時(shí)延增加導(dǎo)致 IOwait 和 GPU 等待。
解決方案
應(yīng)用層透明 POSIX 讀訪問(wèn) OSS;
使用應(yīng)用層分布式緩存降低網(wǎng)絡(luò)讀 IO。
存儲(chǔ)彈性
場(chǎng)景
數(shù)據(jù)庫(kù)擴(kuò)容, MySQL and etc;元數(shù)據(jù)管理應(yīng)用在線擴(kuò)容 Zookeeper/etcd;本地盤(pán)存儲(chǔ)容量無(wú)法擴(kuò)容。
解決方案
云盤(pán)在線擴(kuò)容,應(yīng)用控制面文件系統(tǒng)/邏輯卷離線,在線擴(kuò)容能力;
單機(jī)云盤(pán)掛載密度;
存儲(chǔ)產(chǎn)品 ESSD 的替換使用。
存儲(chǔ)高可用
場(chǎng)景
應(yīng)用運(yùn)維,系統(tǒng)運(yùn)維;塊存儲(chǔ)隨容器遷移的穩(wěn)定性和可發(fā)現(xiàn)性。
解決方案
控制平面聲明式存儲(chǔ)快照,備份,定時(shí)快照備份,本地快照加速備份和恢復(fù);控制平面云盤(pán) SerialNum 的可發(fā)現(xiàn)性改造。
存儲(chǔ)的加密
場(chǎng)景
用戶應(yīng)用的全鏈路數(shù)據(jù)加密需求;操作系統(tǒng)盤(pán)加密。
解決方案
產(chǎn)品存儲(chǔ)的 CMK,BYOK 支持控制平面的加密聲明支持RAM 權(quán)限的最小化控制
存儲(chǔ)的隔離性
場(chǎng)景
單盤(pán)多應(yīng)用共享,單機(jī)日志盤(pán)塊存儲(chǔ)切分
單塊本地盤(pán)/云盤(pán)吞吐能力不足
文件系統(tǒng)多租戶環(huán)境的容量配額
集群級(jí)文件系統(tǒng)共享訪問(wèn)的權(quán)限控制
解決方案
控制面 LVM 切分,控制面塊存儲(chǔ) blkio buffer IO 應(yīng)用級(jí)限速
控制面 LVM 多盤(pán)聚合和條帶
存儲(chǔ)產(chǎn)品共享文件系統(tǒng)的目錄級(jí) Quota
控制面文件系統(tǒng)的目錄級(jí) ACL
存儲(chǔ)的可觀測(cè)性
場(chǎng)景
多租戶 Zookeeper/etcd,租戶/應(yīng)用級(jí)的 IO 指標(biāo)監(jiān)控和預(yù)警。
解決方案
控制面應(yīng)用級(jí) IO Metrics 采集能力
控制面設(shè)備級(jí) IO Metrics 采集能力
控制面掛載點(diǎn)級(jí) IO Metrics 采集能力
存儲(chǔ)的生命周期
場(chǎng)景
共享文件系統(tǒng)/緩存系統(tǒng)的聲明式創(chuàng)建和刪除。
解決方案
Operator: 云盤(pán)/本地盤(pán) (TiDB)
Operator: 文件系統(tǒng),CPFS
Operator: 對(duì)象存儲(chǔ)
云原生存儲(chǔ) v2
針對(duì)以上在新的計(jì)算模式下,存儲(chǔ)方面遇到的性能,彈性,高可用,加密,隔離,可觀測(cè)性,生命周期等方面的問(wèn)題,不但是需要存儲(chǔ)產(chǎn)品層次的改進(jìn),更需要在云原生的控制/數(shù)據(jù)平面的改進(jìn),在不久的將來(lái)實(shí)現(xiàn)穩(wěn)定,安全,自治,和效率并舉的云原生存儲(chǔ) v2。
穩(wěn)定:阿里云存儲(chǔ)的全品類支持可觀測(cè)性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14);安全:全連路數(shù)據(jù)存儲(chǔ)的可靠/可信存儲(chǔ)支持,CSI 快照加密,系統(tǒng)盤(pán)加密;自治:云盤(pán)快照 /本地快照 ,離線在線的存儲(chǔ)擴(kuò)容能力, 元數(shù)據(jù)自動(dòng)發(fā)現(xiàn);效率:I/O 隔離 、可伸縮性/云盤(pán)再次分割提升密度/分布式存儲(chǔ)緩存。
需要在云原生應(yīng)用層、存儲(chǔ)云產(chǎn)品層、底層存儲(chǔ)適配和存儲(chǔ)核心層都需要做相應(yīng)的改進(jìn)和提升才有可能提供更加穩(wěn)定,安全,自治和高效的面向應(yīng)用的云原生存儲(chǔ)。
總結(jié)
云原生存儲(chǔ)是云存儲(chǔ) UI 和效率等能力的集合;分層存儲(chǔ),不重新發(fā)明輪子;新的工作負(fù)載推進(jìn)云原生存儲(chǔ)和云存儲(chǔ)的演進(jìn),云原生控制平面實(shí)現(xiàn)效率,自治方面能力,從數(shù)據(jù)面提升存儲(chǔ)穩(wěn)定和減小安全隱患,云存儲(chǔ)繼續(xù)夯實(shí)性能,容量,彈性,密度等基礎(chǔ)能力,共建云原生環(huán)境下的存儲(chǔ)生態(tài)。
在云原生存儲(chǔ) v2 的演進(jìn)過(guò)程中,仍然需要容器團(tuán)隊(duì)和存儲(chǔ)團(tuán)隊(duì),通力合作,共同提升的云原生時(shí)代的存儲(chǔ)能力。
-
gpu
+關(guān)注
關(guān)注
28文章
4768瀏覽量
129227 -
云存儲(chǔ)
+關(guān)注
關(guān)注
7文章
773瀏覽量
46106
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論