在生成式 AI 時代,加速網絡對于為大規模分布式 AI 工作負載構建高性能計算平臺至關重要。NVIDIA 在加速網絡領域繼續保持領先地位,提供先進的以太網和 InfiniBand 解決方案,可最大限度地提高 AI 工廠和云數據中心的性能和效率。
這些解決方案的核心是NVIDIA SuperNIC,一種專為超大規模 AI 工作負載而優化的新型網絡加速器。這些 SuperNIC 是NVIDIA Spectrum-X 以太網和Quantum-X800 InfiniBand 網絡平臺的關鍵組件,旨在提供前所未有的可擴展性和性能。
ConnectX-8 SuperNIC 是 NVIDIA SuperNIC 產品系列中的新成員,與 BlueField-3 SuperNIC 一起,共同推動加速的大規模 AI 計算網絡的新一輪創新浪潮。ConnectX-8 SuperNIC 的總數據吞吐量為 800 Gb/s,可為萬億級參數的 AI 模型提供所需的速度、網絡健壯性和可擴展性,并與 NVIDIA 交換機無縫集成,以實現最佳性能。
本文將探討 NVIDIA SuperNIC 的獨特屬性及其在推進現代 AI 基礎設施發展方面的關鍵作用。
RoCE 對于 AI 工作負載的重要性
對于 AI 模型訓練來說,在數據中心內的 GPU 之間高速傳輸龐大的數據集是 AI 方案縮短訓練時間和加快上市時間的關鍵。
NVIDIA SuperNIC 具備了出色的硬件 RoCE 加速功能,可實現高達 800 Gb/s 的 GPUDirect RDMA 通信速度,解決了旁路 CPU 在 GPU 之間實現直接數據傳輸面臨的挑戰。
這種直接通信的方法可最大限度地減少 CPU 開銷并降低延遲,在 GPU 顯存之間實現更快、更高效的數據傳輸。在實際應用中,此功能可實現更高的并行度,在 AI 工作負載多節點擴展時,不會出現傳統的基于 CPU 的數據傳輸常見的的通信瓶頸。
通過 Spectrum-X RoCE 動態路由
提升 AI 性能
NVIDIA SuperNIC 的直接數據放置(DDP)功能是 Spectrum-X 平臺提升 AI 網絡性能的關鍵之一。
隨著生成式 AI 工作負載擴展到了數千個節點以上,以等價多路徑(ECMP)為代表的傳統 IP 路由協議再難以處理 AI 模型生成的大規模、持續的數據流(俗稱大象流)。這些流可能會使網絡資源不堪重負,并導致擁塞,從而降低整體網絡性能。
Spectrum-X RoCE 動態路由可以在可用的網絡路徑中動態調整流量的分配,確保需要高帶寬的流以最佳方式路由,以防止網絡擁塞。該方法利用 NVIDIA Spectrum-4 以太網交換機可在多個路徑上均勻分發數據包的負載均衡功能,避免了傳統靜態路由機制造成的瓶頸。
然而,使用這樣的數據包分發的方式,可能會導致數據包亂序問題的出現。
NVIDIA SuperNIC 通過在數據包到達接收端時將其直接按序放入緩沖區來解決了這一問題,確保了應用能收到正確順序的數據。這種 NVIDIA 交換機和 SuperNIC 之間的緊密合作,實現了高效、高速的 AI 工作負載通信,確保大規模 AI 模型能夠持續地處理數據,而不會中斷或降低性能。
解決 AI 網絡的擁塞問題
由于 AI 工作負載的突發性,因此極易受到網絡擁塞的影響。AI 模型訓練(尤其是通過集合通信在多個 GPU 之間進行同步和共享數據時)會產生頻繁且短暫流量峰值,這需要先進的擁塞管理機制來保持網絡的性能。傳統的擁塞控制方法(例如基于 TCP 的流量控制)無法處理這種 AI 獨特的流量模型。
為了解決這一問題,Spectrum-X 采用了基于 Spectrum-4 交換機的實時遙測功能的先進擁塞控制機制,使得 SuperNIC 能夠根據當前的網絡利用率主動地調整數據發送的速率,防止擁塞,避免問題的發生。
通過使用帶內高頻遙測數據,SuperNIC 可以以微秒級精度作出反應,確保即使在高流量條件下也能優化網絡帶寬并盡可能降低延遲。
使用增強的可編程 I/O 加速 AI 網絡
隨著 AI 工作負載日益復雜,網絡基礎設施不僅必須在速度上不斷發展,還需要在適應性方面進步,以支持數千個節點之間的各種通信模式。
NVIDIA SuperNIC 處于這項創新的前沿,提供增強的可編程 I/O 功能,這些功能對于現代 AI 數據中心環境至關重要。這些 SuperNIC 具有加速數據包處理管線,能夠以線速運行,吞吐量高達 800 Gb/s。
通過將數據包處理任務從 CPU 卸載到 SuperNIC,此管道可顯著降低網絡延遲并提高整體系統效率。管道的可編程性由 NVIDIA DOCA 軟件框架提供支持,為網絡專業人員提供了大規模構建和優化網絡的靈活性。
NVIDIA SuperNIC 采用數據路徑加速器(DPA),可增強可編程性。DPA 是一種高度并行的 I/O 處理器,配備 16 個超線程核心,專為處理 I/O 密集型工作負載而設計。它可以通過 DOCA 針對設備仿真、擁塞控制和流量管理等各種低代碼應用程序輕松進行編程。這種可編程性使組織能夠根據其 AI 工作負載的特定需求定制網絡基礎設施,確保數據在保持峰值性能的同時跨網絡高效流動。
保護 AI 網絡連接
保護 AI 模型對于保護敏感數據和知識產權免遭潛在的漏洞和對抗性攻擊至關重要。當您的組織構建 AI 工廠和云數據中心時,您需要有效的安全解決方案來解決可能損害模型性能和可信度的漏洞,最終保護競爭優勢和用戶隱私。
傳統的網絡加密方法通常難以擴展到 100 Gb/s 以上,從而使關鍵數據處于危險之中。相比之下,NVIDIA SuperNIC 可提供加速網絡和在線加密加速,速度高達 800 Gb/s,確保數據在傳輸過程中保持加密狀態,同時實現峰值 AI 性能。
NVIDIA SuperNIC 為 IPsec、TLS 和可擴展的 PSP 加密操作提供硬件加速支持,為保護人工智能網絡環境提供成熟的解決方案。
PSP 由 Google 開發,并為開源社區做出了貢獻。PSP 從一開始就采用無狀態設計,非常適合支持超大規模數據中心環境的需求。該架構允許獨立處理每個請求,從而增強在分布式系統中管理加密操作的可擴展性和彈性。
結束語
在生成式 AI 的動態格局中,NVIDIA SuperNIC 作為 NVIDIA Spectrum-X 和 Quantum-X800 網絡平臺不可或缺的一部分,為網絡的變革時代奠定了基礎。
-
NVIDIA
+關注
關注
14文章
5109瀏覽量
104531 -
網絡
+關注
關注
14文章
7655瀏覽量
89654 -
AI
+關注
關注
87文章
32504瀏覽量
271721
原文標題:NVIDIA SuperNIC 驅動新一代 AI 網絡發展
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
單對以太網技術助力現代通信基礎設施發展
DXC實現全球IT基礎設施現代化

美國投資5000億美元建設AI基礎設施
NVIDIA AI正加速推進藥物研發
英偉達與信實集團攜手在印度建設AI基礎設施
NVIDIA助力印度打造AI基礎設施
智能駕駛所需的基礎設施
NVIDIA與思科合作打造企業級生成式AI基礎設施
微軟貝萊德成立AI基礎設施投資基金
Sam Altman的全球AI基礎設施建設計劃加速推進
借助NVIDIA DOCA 2.7增強AI 云數據中心和NVIDIA Spectrum-X
垂直起降機場:飛行基礎設施的未來是綠色的
英偉達擬將收購AI基礎設施虛擬化初創企業Run:ai
NVIDIA 發布全新交換機,全面優化萬億參數級 GPU 計算和 AI 基礎設施

評論