傳統(tǒng)協(xié)議無(wú)法滿足全閃存數(shù)據(jù)中心的要求,NVMe存儲(chǔ)協(xié)議的出現(xiàn)極大提升了存儲(chǔ)系統(tǒng)內(nèi)部的存儲(chǔ)吞吐性能、降低了傳輸時(shí)延,NoF(NVMe over Fabric)存儲(chǔ)網(wǎng)絡(luò)應(yīng)運(yùn)而生。在多種Fabric技術(shù)中,NVMe over RoCE(RDMA over Converged Ethernet)被廣大存儲(chǔ)廠商所接受,成為業(yè)界NoF的主流。華為推出的NoF+存儲(chǔ)網(wǎng)絡(luò)解決方案,相較于標(biāo)準(zhǔn)NoF方案,在性能、可靠性、易用性上均實(shí)現(xiàn)了顛覆性改進(jìn),是全閃存時(shí)代的最佳選擇。
本文內(nèi)容參考自《數(shù)據(jù)中心前沿網(wǎng)絡(luò)技術(shù)合集(1)》和《數(shù)據(jù)中心前沿網(wǎng)絡(luò)技術(shù)合集(2)》。
隨著存儲(chǔ)介質(zhì)從HDD發(fā)展到SSD,存儲(chǔ)高性能吞吐與SCSI協(xié)議傳輸較低性能吞吐之間的矛盾日益嚴(yán)重,從而出現(xiàn)了NVMe存儲(chǔ)協(xié)議。NVMe規(guī)范了SSD訪問(wèn)接口,簡(jiǎn)化了協(xié)議復(fù)雜性,充分利用PCIe(Peripheral Component Interconnect Express)通道的低延時(shí)以及并行性,利用多核處理器,通過(guò)降低協(xié)議交互時(shí)延,增加協(xié)議并發(fā)能力,并且精簡(jiǎn)操作系統(tǒng)協(xié)議堆棧,顯著提高了SSD的讀寫(xiě)性能。
全場(chǎng)景閃存化推動(dòng)了數(shù)據(jù)中心的網(wǎng)絡(luò)改革,NVMe最大化釋放了SSD介質(zhì)的能力。更快的存儲(chǔ)呼吁更快的網(wǎng)絡(luò)。NoF存儲(chǔ)網(wǎng)絡(luò)應(yīng)運(yùn)而生,通過(guò)使用IP網(wǎng)絡(luò)對(duì)專(zhuān)用網(wǎng)絡(luò)的創(chuàng)新性革新,實(shí)現(xiàn)了更高的帶寬和更低的時(shí)延,同時(shí)也兼具IP易管理的優(yōu)勢(shì),是更好地實(shí)現(xiàn)端到端NVMe存儲(chǔ)網(wǎng)絡(luò)的最佳方案。
NoF將NVMe協(xié)議應(yīng)用到服務(wù)器主機(jī)前端,作為存儲(chǔ)陣列與前端主機(jī)連接的通道,可端到端取代SAN網(wǎng)絡(luò)中的SCSI協(xié)議,構(gòu)建全以太的存儲(chǔ)SAN網(wǎng)絡(luò)。
NVMe over Fabric中的“Fabric”,是NVMe的承載網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)可以是RoCE、FC或TCP。具體說(shuō)明如下:
NVMe over FC協(xié)議標(biāo)準(zhǔn)為FC-NVMe,F(xiàn)C-NVMe和FC-SCSI同樣都基于FCP,IO交互基于Exchange。FC-NVMe基于傳統(tǒng)的FC網(wǎng)絡(luò),通過(guò)升級(jí)主機(jī)驅(qū)動(dòng)和交換機(jī)支持,F(xiàn)C-SCSI和FC-NVMe能同時(shí)運(yùn)行在同一個(gè)FC網(wǎng)絡(luò)中。FC-NVMe能最大化繼承傳統(tǒng)的FC網(wǎng)絡(luò),復(fù)用網(wǎng)絡(luò)基礎(chǔ)設(shè)施,基于FC物理網(wǎng)絡(luò)發(fā)揮NVMe新協(xié)議的優(yōu)勢(shì)。
NVMe over TCP基于現(xiàn)有的IP網(wǎng)絡(luò),采用TCP協(xié)議傳輸NVMe,在網(wǎng)絡(luò)基礎(chǔ)設(shè)施不變的情況下實(shí)現(xiàn)了端到端NVMe。
NVMe over RoCE是NVMe over RDMA的一種,RDMA是承載NoF的原生網(wǎng)絡(luò)協(xié)議,RDMA協(xié)議除了RoCE外還包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。
其中,基于以太網(wǎng)的RoCE目前已成為RDMA的主流網(wǎng)絡(luò)承載方式。NVMe over RDMA協(xié)議比較簡(jiǎn)單,直接把NVMe的IO隊(duì)列映射到RDMA QP(Queue Pair)連接,通過(guò)RDMA SEND,RDMA WRITE,RDMA READ三個(gè)語(yǔ)義實(shí)現(xiàn)IO交互。NVMe over RoCE基于融合以太網(wǎng)的RDMA技術(shù)承載NVMe協(xié)議。
三種方案相比較,基于以太網(wǎng)的RoCE比FC性能更高(更高的帶寬、更低的時(shí)延),同時(shí)兼具TCP的優(yōu)勢(shì)(全以太化、全I(xiàn)P化),因此NVMe over RoCE是NoF最優(yōu)的承載網(wǎng)絡(luò)方案,也已成為業(yè)界NoF的主流技術(shù)。
基于以太網(wǎng)的RoCE在存儲(chǔ)性能、帶寬方面比FC有顯著優(yōu)勢(shì),但替換FC,聯(lián)接全閃存,標(biāo)準(zhǔn)的NVMe over RoCE還需在3個(gè)方面加強(qiáng)完善:
1.網(wǎng)絡(luò)性能:零丟包網(wǎng)絡(luò)零丟包是存儲(chǔ)網(wǎng)絡(luò)的基本需求,傳統(tǒng)以太網(wǎng)絡(luò)擁塞易丟包。
2.可靠性:秒級(jí)主備切換存儲(chǔ)為了可靠性,會(huì)構(gòu)建多個(gè)網(wǎng)絡(luò)平面,切換時(shí)間需<1s。
3.易用性:即插即用FC存儲(chǔ)網(wǎng)絡(luò)場(chǎng)景單一、配置簡(jiǎn)單,當(dāng)前以太網(wǎng)絡(luò)還需針對(duì)存儲(chǔ)場(chǎng)景適應(yīng)性改進(jìn)。
基于當(dāng)下業(yè)界主流的標(biāo)準(zhǔn)NoF方案,華為依靠在網(wǎng)絡(luò)和存儲(chǔ)領(lǐng)域的深厚積累,進(jìn)一步從網(wǎng)絡(luò)性能、可靠性和易用性這三點(diǎn)都進(jìn)行提升,基于智能無(wú)損網(wǎng)絡(luò)面向集中式存儲(chǔ)場(chǎng)景提出了NoF+解決方案,將數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)進(jìn)一步推向更廣闊的發(fā)展空間。
網(wǎng)絡(luò)性能增強(qiáng):NoF+方案改變了傳統(tǒng)以太靜態(tài)水線方式,對(duì)網(wǎng)絡(luò)預(yù)測(cè)性能力進(jìn)行專(zhuān)項(xiàng)優(yōu)化,通過(guò)樣本計(jì)算,針對(duì)特定場(chǎng)景,通過(guò)算法進(jìn)行精準(zhǔn)的控制,從而預(yù)判業(yè)務(wù)對(duì)網(wǎng)絡(luò)的訴求,提前做出優(yōu)化,實(shí)現(xiàn)高吞吐帶寬,進(jìn)一步提升性能。
可靠性增強(qiáng):保障業(yè)務(wù)系統(tǒng)可靠是存儲(chǔ)的根基,比如存儲(chǔ)的秒級(jí)切換功能就是可靠性的關(guān)鍵保障之一,標(biāo)準(zhǔn)以太缺乏故障主動(dòng)發(fā)現(xiàn)和通知能力,NoF+實(shí)現(xiàn)了從事后被動(dòng)響應(yīng)到主動(dòng)通知、提前識(shí)別擁塞和故障。當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)故障,業(yè)務(wù)會(huì)以亞秒級(jí)響應(yīng)速度切換,在高性能運(yùn)行的前提下,也能維持系統(tǒng)的穩(wěn)定可靠。
易用性增強(qiáng):華為的存儲(chǔ)與網(wǎng)絡(luò)產(chǎn)品強(qiáng)強(qiáng)聯(lián)合,打造了“即插即用”的方案,實(shí)現(xiàn)了一鍵式擴(kuò)容,自動(dòng)化管理,增強(qiáng)了在未來(lái)建設(shè)時(shí)的易用性。
在數(shù)據(jù)中心常規(guī)組網(wǎng)里面,存儲(chǔ)網(wǎng)絡(luò)只是其中的一部分,集中式存儲(chǔ)是一個(gè)獨(dú)立的網(wǎng)絡(luò),與業(yè)務(wù)網(wǎng)絡(luò)在物理上隔離。
業(yè)務(wù)網(wǎng)絡(luò):是指業(yè)務(wù)服務(wù)器對(duì)外提供服務(wù)通信網(wǎng)絡(luò),該網(wǎng)絡(luò)與外部網(wǎng)絡(luò)互連互通。
計(jì)算網(wǎng)絡(luò):是指運(yùn)行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)數(shù)據(jù)庫(kù)的后臺(tái)服務(wù)計(jì)算節(jié)點(diǎn)所組成的物理網(wǎng)絡(luò),使用不同的網(wǎng)卡連接業(yè)務(wù)網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò),實(shí)現(xiàn)業(yè)務(wù)網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)之間物理隔離,避免相互影響。
存儲(chǔ)網(wǎng)絡(luò):是指計(jì)算服務(wù)器訪問(wèn)存儲(chǔ)數(shù)據(jù)時(shí)使用通信網(wǎng)絡(luò),該網(wǎng)絡(luò)一般是獨(dú)立的物理網(wǎng)絡(luò)。為了保證數(shù)據(jù)高可靠,存儲(chǔ)網(wǎng)絡(luò)支持DC級(jí)容災(zāi),支持同城雙活存儲(chǔ)網(wǎng)絡(luò),確保業(yè)務(wù)系統(tǒng)發(fā)生設(shè)備故障、甚至單數(shù)據(jù)中心故障時(shí),業(yè)務(wù)無(wú)感知自動(dòng)切換,實(shí)現(xiàn)RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0(與應(yīng)用系統(tǒng)及部署方式有關(guān))。
數(shù)據(jù)中心為了容災(zāi)考慮,需要實(shí)現(xiàn)多數(shù)據(jù)中心互通。同城兩個(gè)數(shù)據(jù)中心互為備份,且都處于運(yùn)行狀態(tài)。當(dāng)一個(gè)數(shù)據(jù)中心發(fā)生設(shè)備故障,甚至數(shù)據(jù)中心整體故障時(shí),業(yè)務(wù)自動(dòng)切換到另一個(gè)數(shù)據(jù)中心,解決了傳統(tǒng)災(zāi)備中心不能承載業(yè)務(wù)和業(yè)務(wù)無(wú)法自動(dòng)切換的問(wèn)題。提供給用戶(hù)高級(jí)別的數(shù)據(jù)可靠性以及業(yè)務(wù)連續(xù)性的同時(shí),提高存儲(chǔ)系統(tǒng)的資源利用率。異地進(jìn)行異步數(shù)據(jù)備份。
在集中式存儲(chǔ)下,為了實(shí)現(xiàn)同城讀寫(xiě)支持NVME over ROCE,需要實(shí)現(xiàn)同城無(wú)損網(wǎng)絡(luò),即需要一套跨DC的無(wú)損網(wǎng)絡(luò),每個(gè)DC部署兩臺(tái)支持智能長(zhǎng)距無(wú)損的DCI Leaf,中間通過(guò)波分設(shè)備或者裸光纖直連實(shí)現(xiàn)雙平面,實(shí)現(xiàn)端到端的ROCE無(wú)損網(wǎng)絡(luò)。
在本場(chǎng)景中,常見(jiàn)的流量有以下幾種類(lèi)型:
由應(yīng)用發(fā)起對(duì)存儲(chǔ)節(jié)點(diǎn)數(shù)據(jù)的讀操作,此時(shí)計(jì)算節(jié)點(diǎn)訪問(wèn)同DC中的存儲(chǔ)節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn)返回相應(yīng)數(shù)據(jù),如圖中藍(lán)色線條所示。
當(dāng)應(yīng)用同時(shí)還需要對(duì)存儲(chǔ)寫(xiě)數(shù)據(jù)時(shí),除了對(duì)本DC內(nèi)的存儲(chǔ)節(jié)點(diǎn)執(zhí)行寫(xiě)操作,在存儲(chǔ)系統(tǒng)之間,同時(shí)也會(huì)發(fā)起對(duì)另外DC中存儲(chǔ)的寫(xiě)操作,作為數(shù)據(jù)的復(fù)制備份,如圖中黑色線條所示。
當(dāng)上層應(yīng)用在寫(xiě)本DC存儲(chǔ)時(shí),會(huì)先探測(cè)本DC內(nèi)存儲(chǔ)節(jié)點(diǎn)是否可用,如果不可用,則應(yīng)用會(huì)將數(shù)據(jù)寫(xiě)入到DC2中的存儲(chǔ)節(jié)點(diǎn)中,如圖中紅色線條所示。然后DC2中的存儲(chǔ)節(jié)點(diǎn),再?lài)L試將數(shù)據(jù)復(fù)制寫(xiě)如到DC1的存儲(chǔ)節(jié)點(diǎn)中,如圖中的紫色線條所示。
RoCEv2協(xié)議將RDMA遷移到了ETH/IP網(wǎng)絡(luò),使得ETH/IP網(wǎng)絡(luò)支持HPC、AI、分布式存儲(chǔ)和集中式存儲(chǔ)。NoF+存儲(chǔ)網(wǎng)絡(luò)解決方案借助RoCEv2技術(shù)改變了傳統(tǒng)數(shù)據(jù)中心前端業(yè)務(wù)網(wǎng)采用以太網(wǎng)、計(jì)算網(wǎng)采用IB網(wǎng)、存儲(chǔ)網(wǎng)采用FC網(wǎng)的異構(gòu)模式,讓智能無(wú)損網(wǎng)絡(luò)實(shí)現(xiàn)三網(wǎng)合一成為可能,全部采用以太的方式部署。
審核編輯:郭婷
-
華為
+關(guān)注
關(guān)注
216文章
34530瀏覽量
252593 -
SSD
+關(guān)注
關(guān)注
21文章
2887瀏覽量
117682 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4855瀏覽量
72305
原文標(biāo)題:NVMe over Fabric網(wǎng)絡(luò)技術(shù)介紹
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論