眾所周知,人工智能正在改變世界。對于網絡管理員而言,人工智能可以以一些令人驚嘆的方式改善日常運營:
-
重復性任務的自動化:這包括監控、故障排除和升級,可以節省時間,同時降低人為錯誤的風險。
-
網絡安全:人工智能可以幫助實時檢測和應對安全威脅。例如,NVIDIA Morpheus 使網絡安全開發者能夠創建經過優化的實時數據 AI 流水線。
-
拓撲優化:借助合適的遙測技術,人工智能可以分析流量模式并提出更改建議,從而優化網絡性能。
-
主動式網絡規劃:人工智能可以使用同樣的高級網絡遙測技術來評估趨勢,以預測潛在問題,并在問題發生之前提出更改建議,從而避免問題的發生。
然而,人工智能無法取代經驗豐富的網絡管理員的專業知識。人工智能旨在增強您的能力,就像一個虛擬助理一樣。因此,人工智能可能會成為您最好的朋友,但生成式 AI 是一種新的數據中心工作負載,它帶來了新的范式轉變:NVIDIA 集合通信庫(NCCL)。
數據中心的演變
網絡管理員不得不處理許多其他近期更改:
-
如何配置網絡
-
如何監控和管理網絡
-
如何設計網絡
-
網絡上的協議和工作負載
不久前,我們可能已經通過特定網絡命令行界面(CLI)的專業水平來衡量新網絡管理員的價值。隨著混合云計算和 DevOps 的出現,從 CLI 到 API 的轉變也在不斷發展。
甚至您監控和管理網絡的方式也發生了變化。您已經從使用 SNMP 和 NetFlow 在數據中心輪詢設備的工具轉向了新的基于交換機的遙測模型,在該模型中,交換機會主動以流式傳輸提供基于流的診斷詳細信息。
您可以實操將新的工作負載引入數據中心,其中許多數據中心都有獨特的網絡需求。您已經看到傳統數據庫被數據分析和大數據集群所取代。
現在,當被要求構建人工智能集群時,人們很容易認為人工智能只是一個規模更大、速度更快的大數據應用程序。但人工智能是不同的,如果沒有合適的工具,人工智能可能會很難實現。
生成式 AI 和 NCCL 的影響
您是一家大型企業的網絡管理員。您的 CTO 參加了 GTC 2023,并了解了生成式 AI 他們希望通過構建像 ChatGPT 這樣的大型語言模型來響應最終用戶,并與最終用戶進行交互,從而改變業務運營方式。該模型必須經過訓練。這需要一個大型人工智能訓練集群,許多 GPU 加速的服務器通過高速網絡連接。
這個人工智能訓練集群帶來了許多新的挑戰:
-
網絡流量模式和流量特性發生了顯著變化,而傳統 ECMP 表現不佳。
-
AI 集群參考設計需要用于計算/ GPU 、存儲甚至帶內管理的專用網絡。
-
網絡流量是異構的,生成由 CPU 到 CPU 和 GPU 到 GPU 通信。
-
人工智能集群必須能夠適應在一臺服務器上、多臺服務器上運行作業,甚至是在一臺計算機上同時運行多個作業。
-
網絡配置發生變化,參數可優化 RoCE 和 GPU 直接通信。
-
人工智能作業必須在多次迭代中具有一致且可預測的作業完成時間。
-
具有更高帶寬交換機的新型扁平化拓撲。
-
需要學習的新縮寫詞:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。
-
新的監控工具:他們如何知道 AI 和 NCCL 是否表現良好?
那么,什么是 NCCL?以下是教科書般的答案:
NVIDIA Collective Communication Library(NCCL)實現了針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信原語。NCCL 提供了諸如 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 以及點對點發送和接收之類的例程,這些例程經過優化,可通過節點內的 PCIe 和 NVLink 高速互連以及節點間的 NVIDIA 網絡實現高帶寬和低延遲。
資料來源:
NVIDIA Collective Communication Library (NCCL)
對于網絡管理員,NCCL 負責控制全新 AI 集群的流量模式。這意味著您需要針對 NCCL 進行優化的網絡設計、針對 NCCL 優化的網絡監控工具以及針對 NCCL 優化的以太網交換機。
NCCL 是實現 AI 集群上運行的工作負載的高性能、一致性和可預測性的關鍵。NCCL 也是一個交匯點:網絡管理員和數據科學家都必須講出并理解它。當他們都能流利地講出它時,NCCL 可以成為這些具有不同所需技能的專業人士之間的共同語言。
鑒于 NCCL 的重要性,合適的網絡可以決定和突破 AI 集群的性能。人工智能集群有一些獨特的要求:
-
抗噪能力強
-
對故障具有彈性
-
導軌優化拓撲
-
無損網絡轉發
-
性能隔離
-
無阻塞網絡架構
那么,接下來是什么呢?
您的工作是防止網絡減緩人工智能集群的速度,但人工智能網絡需要什么?高帶寬、低延遲和高彈性是必要的,但還不夠。您將如何選擇合適的基礎設施?
-
基于產品手冊?并不完全。
-
根據供應商告訴您的?有點冒險,因為他們想賣給您一些東西。
-
基于數據科學家們所要求的?他們不是網絡專家,所以大多數人都不知道。
-
基于經驗豐富的網絡管理員的建議?很有可能他們認為是 CPU,而不是 GPU,并且需求已經發生了變化。
人工智能的網絡可能很難。“沒有人會因為購買 X 而被解雇”這句格言與摩爾定律一樣過時,因為人工智能的 X 因素與通用計算不同。即使是擁有專門的人工智能工程團隊來預先測試集群性能的大型 IT 供應商,當性能隨著更多用戶的添加和多個作業的同時運行而急劇下降時,也會經常感到驚訝。
保證人工智能集群性能的最佳方法是遵循 NVIDIA 發布的人工智能參考架構之一,并使用具有人工智能可見性功能的基礎設施來驗證您的人工智能集群的健康狀況和供給情況。
無論您的人工智能集群使用以太網還是 InfiniBand,NVIDIA 都會為您提供所需的工具、支持和培訓,以使您成功并成為人工智能網絡專家。
掃描下方二維碼,查看更多有關 NVIDIA 集合通信庫(NCCL)的信息。
?
更多精彩內容 使用 NVIDIA Spectrum-X 網絡平臺加速生成式 AI 工作負載
使用 NVIDIA Cumulus Linux 實現數據中心網絡自動化
借助 NVIDIA WJH 更快地診斷網絡問題
COMPUTEX2023 | NVIDIA 推出面向超大規模生成式 AI 的加速以太網平臺
原文標題:為網絡管理員導航生成式 AI
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3842瀏覽量
91726
原文標題:為網絡管理員導航生成式 AI
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論