導語:AI算力爆發的背后,如何保障網絡“零丟包”?
在當今數據中心網絡中,隨著AI、高性能計算(HPC)和分布式存儲等應用的飛速發展,網絡的無損傳輸能力變得至關重要。PFC(基于優先級的流量控制)和ECN(顯式擁塞通知)作為智能無損網絡的關鍵技術,能夠有效解決網絡擁塞問題,保障數據傳輸的低延遲和高吞吐量。然而,如何驗證和優化PFC/ECN技術的水線參數,提升無損網絡的性能成為了網絡設備制造商和運營商面臨的重大挑戰。
一、PFC/ECN技術簡介
(一)PFC(Priority-based Flow Control)
PFC是基于IEEE 802.1Qbb標準的流量控制機制,通過為不同業務流量劃分優先級,實現精細化擁塞管理。其核心邏輯如下:
優先級隊列劃分 :網絡設備端口配置8個獨立優先級隊列(0-7),高優先級隊列(如金融交易、AI訓練流量)優先調度;
反壓信號交互 :當接收端檢測到某優先級隊列擁塞時,向發送端發送PAUSE幀(反壓信號),暫停對應隊列的流量發送;
動態恢復機制 :擁塞解除后,接收端發送RESUME信號,恢復流量傳輸,確保高優先級業務零丟包。
典型應用場景 :
金融高頻交易:微秒級時延敏感業務需絕對優先傳輸;
實時視頻流:避免關鍵幀丟失導致的畫質劣化。
PFC機制在檢測到網絡擁塞時,會自動觸發對低優先級流量的暫停,以保障高優先級流量的傳輸,而當擁塞緩解后,低優先級流量又會自動恢復傳輸,這一過程實現了網絡流量的自動降速與恢復,有效平衡了不同優先級流量的傳輸需求。
如下圖所示,DeviceA發送接口被分成了8個優先級隊列,DeviceB接收接口則存在8個接收緩存,二者一一對應。DeviceB接收接口上某個接收緩存發生擁塞時,會發送一個反壓信號“STOP”到DeviceA,DeviceA則停止發送對應優先級隊列的流量。
PFC的工作方式
(二)ECN(Explicit Congestion Notification)
ECN是TCP/IP協議的擴展機制,用于減少網絡擁塞導致的數據包丟失。當網絡設備檢測到擁塞時,會在IP數據包頭部設置ECN標志,而不是直接丟棄。接收端收到標記后,會通知發送端降低傳輸速率,從而緩解網絡擁塞。接收端收到RoCEv2 報文 IP ECN 標記為“11”,接收端口生成RoCEv2 CNP ,發給流量發送端。對指定QP可選擇單個或者多個CNP 來對ECN 標記報文的響應。
ECN機制不僅提高了網絡的利用率,還顯著降低了丟包率。同時在擁塞緩解后,發送端又可以逐步提高發送速率,恢復正常的傳輸效率,實現了網絡傳輸速率的動態調整與優化。
二、PFC/ECN流量測試的重要性
在數據中心網絡中,PFC和ECN機制的有效性直接關系到網絡的無損傳輸能力和整體性能。然而,在實際部署中,PFC/ECN機制可能面臨以下問題:
優先級錯配 :PFC隊列映射錯誤導致高優先級流量被低優先級搶占;
閾值靈敏度不足 :ECN標記閾值設置不合理,引發擁塞響應滯后或過度降速;
多技術協同失效 :PFC與ECN策略沖突,導致網絡性能波動。
測試價值 :
通過系統性驗證PFC/ECN功能的有效性,優化水線參數配置,確保智能無損網絡的穩定性和業務SLA達標。
三、PFC/ECN流量測試方案
(一)測試目標
- 驗證PFC機制的有效性 :確保網絡設備能夠根據優先級正確地暫停和恢復流量,避免高優先級流量的丟包。
- 驗證ECN機制的有效性 :確保網絡設備能夠在擁塞時正確地標記ECN標志,并通過CNP(擁塞通知報文)反饋機制調整發送速率。
- 評估網絡在擁塞情況下的性能表現 :包括吞吐量、延遲和丟包率等關鍵指標。以及PFC與ECN自動降速功能對網絡性能的影響
(二)測試環境
- 硬件設備 :
o RoCE網絡測試儀、網絡損傷儀
o 被測網絡設備(如交換機、路由器)
- 網絡拓撲 :
o 采用典型的Leaf-Spine架構,測試儀連接到Leaf交換機,被測設備部署在Spine層。
o 測試儀通過多個端口向被測設備發送PFC/ECN流量,模擬真實網絡環境中的多源多宿場景。
o 在環境中部署損傷儀,模擬真實網絡環境中的丟包、時延、抖動等場景
(三)測試方法
1. PFC測試方法
· 配置PFC優先級 :在測試儀和被測設備上配置相同的PFC優先級映射關系,確保測試流量能夠觸發PFC機制。
· 流量生成與發送 :測試儀生成具有不同優先級的流量,分別模擬高優先級和低優先級的業務流量。
· 擁塞觸發 :通過調整流量負載,使被測設備的緩沖區接近滿載,觸發PFC機制。
· 流量監控與分析 :監控高優先級流量是否被正確暫停和恢復,低優先級流量是否能夠正常傳輸,以及低優先級流量在PFC機制觸發后的自動降速 情況和擁塞緩解后的恢復情況。記錄流量的吞吐量、延遲和丟包率等指標。
配置RoCEv2 Server。配置VLAN Priority: 6,如下圖所示:。
- PFC測試結果分析 :
o 檢查高優先級流量是否在擁塞時被正確暫停,并在擁塞緩解后恢復傳輸。
o 分析低優先級流量的吞吐量和延遲變化,確保其不受PFC機制的影響。
o 評估網絡設備在PFC機制下的整體性能表現,是否存在優先級調度失效等問題。
查看端口的Basic和PFC統計,可以看到端口1發出的流降速到28%。PFC統計正確,如下圖所示:
配置RoCEv2 Server。配置VLAN Priority: 6,如下圖所示:。
- ECN測試方法
· 配置ECN功能 :在測試儀和被測設備上啟用ECN功能,并設置ECN標志位。
· 流量生成與發送 :測試儀生成帶有ECN標志的流量,并向被測設備發送。
· 擁塞觸發 :通過增加流量負載,使被測設備檢測到擁塞,并在數據包頭部標記ECN標志。
· CNP反饋機制測試 :接收端收到帶有ECN標志的數據包后,生成CNP并發送給發送端。發送端根據CNP調整發送速率。
· 性能評估 :記錄流量的吞吐量、延遲和丟包率等指標,評估ECN機制在擁塞控制中的有效性,以及自動降速功能對網絡性能的影響。
配置端口參數,使能ECN,ECN配置成11(CE),如下圖所示:
配置RoCEv2 Server。配置VLAN ID, IP地址信息,保證ARP可以成功,如下圖所示:
配置QP流量,如下圖所示:
- ECN測試結果分析 :
o 檢查ECN標志是否被正確標記,并通過CNP反饋機制傳遞到發送端。
o 分析發送端是否根據CNP調整發送速率,以及調整后的吞吐量和延遲變化。
o 評估ECN機制在擁塞控制中的有效性,是否存在過度調整或調整不及時等問題。
查看端口統計和流統計的RoCEv2統計,如下圖
四、DarYu-X系列測試儀:智能無損網絡的驗證引擎
信而泰公司推出的X2-100G-12QSFP28、X5-400G高密度測試儀是一款專為高端路由器、交換機以及數據中心交換機設計的高密度測試平臺。具備如下功能特性:
X2-100G RoCE測試板卡
高密度400G測試儀一體機
l 支持100G/200G/400G測試端口
l 支持L2(VLAN)和L3(DSCP)的QOS設置
l 支持RoCEv2流量的產生和發送
l 支持ECN/PFC使能和優先級設置
l 每端口支持8000個QP,支持基于QP選擇流量端點
PFC/ECN流量測試是驗證智能無損網絡性能的關鍵手段。通過科學的測試方案,可以全面評估PFC和ECN機制的有效性,優化網絡配置,提高網絡的無損傳輸能力和整體性能。信而泰憑借其在測試領域的深厚積累,提供了全面的PFC/ECN流量測試解決方案,能夠滿足不同應用場景的需求。無論是AI訓練、高性能計算還是分布式存儲,信而泰的測試方案都能為網絡設備制造商和運營商提供有力支持,助力智能無損網絡的發展。
審核編輯 黃宇
-
PFC
+關注
關注
47文章
1007瀏覽量
107310 -
分布式存儲
+關注
關注
4文章
178瀏覽量
19720
發布評論請先 登錄
相關推薦
泰克示波器MDO32在高速信號測試中的關鍵作用與應用案例

無橋PFC變換器綜述
信而泰CCL仿真:解鎖AI算力極限,智算中心網絡性能躍升之道

信而泰網絡測試儀校準解決方案
虹科方案 僅需4個步驟!輕松高效搭建虹科TSN測試網絡

消防管道壓力流量監控方案
網絡故障導致流量失控?看虹科Qci方案如何一招制勝!

上海電信攜手華為打造400GE IP彈性無損智算廣域網絡

評論