天堂成人精品视频在线观,天天噜噜,亚洲自国拍产自拍

傳統(tǒng)的云數(shù)據(jù)中心網(wǎng)絡(luò)一般是基于對外提供服務(wù)的流量模型而設(shè)計的，流量主要是從數(shù)據(jù)中心到最終客戶，即以南北向流量為主，云內(nèi)部東西向流量為輔。承載 VPC 網(wǎng)絡(luò)的底層物理網(wǎng)絡(luò)架構(gòu)，對于承載智算業(yè)務(wù)存在如下挑戰(zhàn)。

本文選自“智算中心網(wǎng)絡(luò)架構(gòu)白皮書（2023）”“智能計算中心規(guī)劃建設(shè)指南”，對傳統(tǒng)網(wǎng)絡(luò)與智算網(wǎng)絡(luò)、兩層胖樹、三次胖樹及全面的分析對比，并介紹了組網(wǎng)最佳實踐。

有阻塞網(wǎng)絡(luò)：考慮到并非所有服務(wù)器都會同時對外產(chǎn)生流量，為了控制網(wǎng)絡(luò)建設(shè)成本， Leaf 交換機的下聯(lián)帶寬和上聯(lián)帶寬并非按照 1：1 設(shè)計，而是存在收斂比。一般上聯(lián)帶寬僅有下聯(lián)帶寬的三分之一。

云內(nèi)部流量時延相對較高：跨 Leaf 交換機的兩臺服務(wù)器互訪需要經(jīng)過 Spine 交換機，轉(zhuǎn)發(fā)路徑有 3 跳。

帶寬不夠大：一般情況下單物理機只有一張網(wǎng)卡接入 VPC 網(wǎng)絡(luò)，單張網(wǎng)卡的帶寬比較有限，當前較大范圍商用的網(wǎng)卡帶寬一般都不大于 200Gbps。

對于智算場景，當前比較好的實踐是獨立建一張高性能網(wǎng)絡(luò)來承載智算業(yè)務(wù)，滿足大帶寬，低時延，無損的需求。

大帶寬的設(shè)計

智算服務(wù)器可以滿配 8 張 GPU 卡，并預(yù)留 8 個 PCIe 網(wǎng)卡插槽。在多機組建 GPU 集群時，兩個 GPU 跨機互通的突發(fā)帶寬有可能會大于 50Gbps。因此，一般會給每個 GPU 關(guān)聯(lián)一個至少 100Gbps 的網(wǎng)絡(luò)端口。在這種場景下可以配置 4張 2*100Gbps 的網(wǎng)卡，也可以配置 8 張 1*100Gbps 的網(wǎng)卡，當然也可以配置 8 張單端口 200/400Gbps 的網(wǎng)卡。

無阻塞設(shè)計

無阻塞網(wǎng)絡(luò)設(shè)計的關(guān)鍵是采用 Fat-Tree（胖樹）網(wǎng)絡(luò)架構(gòu)。交換機下聯(lián)和上聯(lián)帶寬采用 1：1 無收斂設(shè)計，即如果下聯(lián)有64 個 100Gbps 的端口，那么上聯(lián)也有 64 個 100Gbps 的端口。

此外交換機要采用無阻塞轉(zhuǎn)發(fā)的數(shù)據(jù)中心級交換機。當前市場上主流的數(shù)據(jù)中心交換機一般都能提供全端口無阻塞的轉(zhuǎn)發(fā)能力。

低時延設(shè)計 AI-Pool

在低時延網(wǎng)絡(luò)架構(gòu)設(shè)計方面，百度智能云實踐和落地了基于導(dǎo)軌（Rail）優(yōu)化的AI-Pool 網(wǎng)絡(luò)方案。在這個網(wǎng)絡(luò)方案中，8 個接入交換機為一組，構(gòu)成一個 AI-Pool。以兩層交換機組網(wǎng)架構(gòu)為例，這種網(wǎng)絡(luò)架構(gòu)能做到同 AI-Pool 的不同智算節(jié)點的 GPU 互訪僅需一跳。

在 AI-Pool 網(wǎng)絡(luò)架構(gòu)中，不同智算節(jié)點間相同編號的網(wǎng)口需要連接到同一臺交換機。如智算節(jié)點 1 的 1 號 RDMA 網(wǎng)口，智算節(jié)點 2 的 1 號 RDMA 網(wǎng)口直到智算節(jié)點 P/2 的 1 號 RDMA 網(wǎng)口都連到 1 號交換機。

在智算節(jié)點內(nèi)部，上層通信庫基于機內(nèi)網(wǎng)絡(luò)拓撲進行網(wǎng)絡(luò)匹配，讓相同編號的 GPU 卡和相同編號的網(wǎng)口關(guān)聯(lián)。這樣相同GPU 編號的兩臺智算節(jié)點間僅一跳就可互通。

不同GPU編號的智算節(jié)點間，借助NCCL通信庫中的Rail Local技術(shù)，可以充分利用主機內(nèi)GPU間的NVSwitch的帶寬，將多機間的跨卡號互通轉(zhuǎn)換為跨機間的同GPU卡號的互通。

對于跨 AI-Pool 的兩臺物理機的互通，需要過匯聚交換機，此時會有 3 跳。

網(wǎng)絡(luò)可承載的 GPU 卡的規(guī)模和所采用交換機的端口密度、網(wǎng)絡(luò)架構(gòu)相關(guān)。網(wǎng)絡(luò)的層次多，承載的 GPU 卡的規(guī)模會變大，但轉(zhuǎn)發(fā)的跳數(shù)和時延也會變大，需要結(jié)合實際業(yè)務(wù)情況進行權(quán)衡。

兩層胖樹架構(gòu)

8 臺接入交換機組成一個智算資源池 AI-Pool。圖中 P 代表單臺交換機的端口數(shù)。單臺交換機最大可下聯(lián)和上聯(lián)的端口為P/2 個，即單臺交換機最多可以下聯(lián) P/2 臺服務(wù)器和 P/2 臺交換機。兩層胖樹網(wǎng)絡(luò)可以接入 P*P/2 張 GPU 卡。

三層胖樹架構(gòu)

三層網(wǎng)絡(luò)架構(gòu)中會新增匯聚交換機組和核心交換機組。每個組里面的最大交換機數(shù)量為 P/2。匯聚交換機組最大數(shù)量為 8，核心交換機組的最大數(shù)量為 P/2。三層胖樹網(wǎng)絡(luò)可以接入 P*（P/2）*（P/2）=P*P*P/4 張 GPU 卡。

在三層胖樹組網(wǎng)中，InfiniBand 的 40 端口的 200Gbps HDR 交換機能容納的最多 GPU 數(shù)量是 16000。這個 16000GPU 卡的規(guī)模也是目前 InfiniBand 當前在國內(nèi)實際應(yīng)用的 GPU 集群的最大規(guī)模網(wǎng)絡(luò)，當前這個記錄被百度保持。

兩層和三層胖樹網(wǎng)絡(luò)架構(gòu)的對比

可容納的 GPU 卡的規(guī)模

兩層胖樹和三層胖樹最重要的區(qū)別是可以容納的 GPU 卡的規(guī)模不同。在下圖中 N 代表 GPU 卡的規(guī)模，P 代表單臺交換機的端口數(shù)量。比如對于端口數(shù)為 40 的交換機，兩層胖樹架構(gòu)可容納的 GPU 卡的數(shù)量是 800 卡，三層胖樹架構(gòu)可容納的 GPU 卡的數(shù)量是 16000 卡。

轉(zhuǎn)發(fā)路徑

兩層胖樹和三層胖樹網(wǎng)絡(luò)架構(gòu)另外一個區(qū)別是任意兩個節(jié)點的網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑的跳數(shù)不同。

對于同智算資源池 AI-Pool 的兩層胖樹架構(gòu)，智算節(jié)點間同 GPU 卡號轉(zhuǎn)發(fā)跳數(shù)為 1 跳。智算節(jié)點間不同 GPU 卡號在沒有做智算節(jié)點內(nèi)部 Rail Local 優(yōu)化的情況下轉(zhuǎn)發(fā)跳數(shù)為 3 跳。

對于同智算資源池 AI-Pool 的三層胖樹架構(gòu)，智算節(jié)點間同 GPU 卡號轉(zhuǎn)發(fā)跳數(shù)為 3 跳。智算節(jié)點間不同 GPU 卡號在沒有做智算節(jié)點內(nèi)部 Rail Local 優(yōu)化的情況下轉(zhuǎn)發(fā)跳數(shù)為 5 跳。

典型實踐

不同型號的 InfiniBand/RoCE 交換機和不同的網(wǎng)絡(luò)架構(gòu)下所支持的 GPU 的規(guī)模不同。結(jié)合當前已成熟商用的交換機，我們推薦幾種物理網(wǎng)絡(luò)架構(gòu)的規(guī)格供客戶選擇。

Regular：InfiniBand 兩層胖樹網(wǎng)絡(luò)架構(gòu)，基于 InfiniBand HDR 交換機，單集群最大支持 800 張 GPU 卡。

Large：RoCE 兩層胖樹網(wǎng)絡(luò)架構(gòu)，基于 128 端口 100G 數(shù)據(jù)中心以太交換機，單集群最大支持 8192 張 GPU 卡。

XLarge：InfiniBand 三層胖樹網(wǎng)絡(luò)架構(gòu)，基于 InfiniBand HDR 交換機，單集群最大支持 16000 張 GPU 卡。

XXLarge：基于 InfiniBand Quantum-2 交換機或同等性能的以太網(wǎng)數(shù)據(jù)中心交換機，采用三層胖樹網(wǎng)絡(luò)架構(gòu)，單集群最大支持 100000 張 GPU 卡。

Large智算物理網(wǎng)絡(luò)架構(gòu)實踐

支撐上層創(chuàng)新應(yīng)用和算法落地的關(guān)鍵環(huán)節(jié)之一是底層的算力，而支撐智算集群的算力發(fā)揮其最大效用的關(guān)鍵之一是高性能網(wǎng)絡(luò)。度小滿的單個智算集群的規(guī)模可達 8192 張 GPU 卡，在每個智算集群內(nèi)部的智算資源池 AI-Pool 中可支持 512張 GPU 卡。通過無阻塞、低時延、高可靠的網(wǎng)絡(luò)設(shè)計，高效的支撐了上層智算應(yīng)用的快速迭代和發(fā)展。

XLarge智算物理網(wǎng)絡(luò)架構(gòu)實踐

為了實現(xiàn)更高的集群運行性能，百度智能云專門設(shè)計了適用于超大規(guī)模集群的 InfiniBand 網(wǎng)絡(luò)架構(gòu)。該網(wǎng)絡(luò)已穩(wěn)定運行多年，2021 年建設(shè)之初就直接采用了 200Gbps 的 InfiniBand HDR 交換機，單臺 GPU 服務(wù)器的對外通信帶寬為1.6Tbps。

責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

帶寬

帶寬

+關(guān)注

關(guān)注
3

文章
952

瀏覽量
41016
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
9287

瀏覽量
85847
交換機

交換機

+關(guān)注

關(guān)注
21

文章
2656

瀏覽量
99960
數(shù)據(jù)中心

數(shù)據(jù)中心

+關(guān)注

關(guān)注
16

文章
4848

瀏覽量
72290
智能計算

智能計算

+關(guān)注

關(guān)注
0

文章
179

瀏覽量
16522

原文標題：智算中心網(wǎng)絡(luò)架構(gòu)設(shè)計實踐（2023）

文章出處：【微信號：架構(gòu)師技術(shù)聯(lián)盟，微信公眾號：架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

智能計算中心規(guī)劃建設(shè)指南

評論

多個城市人工智能計算中心陸續(xù)上線

智算中心網(wǎng)絡(luò)架構(gòu)選型原則

基建狂魔又一大工程，智算中心

【亞派·資訊】電力發(fā)展“十三五”規(guī)劃：推進“互聯(lián)網(wǎng)+”智能電網(wǎng)建設(shè)

臺灣將建設(shè)云計算中心并成立公司

曙光聯(lián)手北京計算中心打造云計算聯(lián)合實驗室

站在風(fēng)口本土AI智能計算中心蓄勢待發(fā)

武漢人工智能計算中心項目正式啟動建設(shè)

深扒北京超級云計算中心背后的故事

許昌市政府與華為共同建設(shè)中原人工智能計算中心

華為人工智能計算中心已在多省市落地應(yīng)用

沈陽人工智能計算中心正式上線并網(wǎng)投入運行

沈陽人工智能計算中心正式上線并網(wǎng)

人工智能計算中心是干什么的

數(shù)通365案例 | 全國首個人工智能計算中心，新以太助力武漢＂最強大腦＂