亚洲国产精品尤物yw在线观看,天天躁夜夜躁很很躁,婷婷麻豆

全新 NVIDIA Spectrum-X 網(wǎng)絡平臺構(gòu)筑阿里生成式 AI 云底座

隨著生成式 AI 的熱潮席卷全球，用于訓練生成式 AI 的大型高性能網(wǎng)絡基礎設施開始受到客戶和行業(yè)的關(guān)注。這不僅僅是因為巨大的市場潛力，更因為生成式 AI 應用對當前網(wǎng)絡的技術(shù)與產(chǎn)品帶來的巨大挑戰(zhàn)。

由于生成式 AI 訓練任務的特性，其對網(wǎng)絡的要求與傳統(tǒng)的 DC 網(wǎng)絡在多方面存在差異。主要體現(xiàn)在：

性能至上，對于網(wǎng)絡帶寬及通信效率的要求高，需要實現(xiàn)從 GPU 到網(wǎng)絡，再到其它 GPU 的端到端帶寬平衡，從而達到最大化集群訓練性能的目的。
AI 網(wǎng)絡流量并發(fā)性高和突發(fā)性流量多，對于數(shù)據(jù)的完整性要求極高，依賴于 RDMA 轉(zhuǎn)發(fā)保證帶寬最大化和數(shù)據(jù)的完整性，降低對 CPU 資源消耗。
模型并行加數(shù)據(jù)并行共存的通信機制導致對于網(wǎng)絡時延敏感，網(wǎng)絡中的任何額外的時延都可能影響數(shù)以百計的 GPU 之間的通信效率。
需要無收斂的網(wǎng)絡拓撲保證各種通信場景下的網(wǎng)絡帶寬沒有瓶頸。

由于傳統(tǒng)的網(wǎng)絡解決方案無法滿足這些需求，NVIDIA 依靠多年在 AI 和高速通信鄰域的積累，推出了 Spectrum-X 以太網(wǎng)解決方案，以推動以太網(wǎng)技術(shù)可以更好的適配生成式 AI 基礎設施的要求。

NVIDIA Spectrum-X 是首個專為基于以太網(wǎng)的 AI 云提高性能和效率而設計的平臺。NVIDIA Spectrum-X 依托于 NVIDIA Spectrum-4 以太網(wǎng)交換機和 NVIDIA BlueField-3 DPU 的緊密結(jié)合，專為 AI 工作負載構(gòu)建了端到端的創(chuàng)新網(wǎng)絡平臺，大幅提升了以太網(wǎng)在大規(guī)模、可擴展環(huán)境中的通信效率，并在多租戶環(huán)境中實現(xiàn)了一致的、可預測的性能，提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 網(wǎng)絡平臺還包括 Cumulus Linux、NetQ 、Air 和 DOCA 加速軟件等，以及 NVIDIA 的 LinkX 系列線纜和光模塊產(chǎn)品，共同助力該網(wǎng)絡平臺實現(xiàn)絕佳的性能。

NVIDIA Spectrum-X 網(wǎng)絡平臺集成了 NVIDIA Spectrum-4 以太網(wǎng)交換機、NVIDIA BlueField-3 DPU、NVIDIA LinkX 線纜及加速軟件和 SDK，通過無損以太網(wǎng)的端到端動態(tài)路由、基于可編程擁塞控制的性能隔離技術(shù)等先進的 RoCE 擴展功能，構(gòu)建了一個專為 AI 云而優(yōu)化和加速的端到端高性能 400GbE 以太網(wǎng)絡。測試顯示，與傳統(tǒng)以太網(wǎng)相比，采用 NVIDIA Spectrum-X 網(wǎng)絡平臺可將大規(guī)模 AI 工作負載的性能提高到 1.7 倍，并將網(wǎng)絡的有效通信帶寬提升到 1.6 倍。

NVIDIA Spectrum-X 網(wǎng)絡平臺，實現(xiàn)了 GPU 到 GPU 直接的端到端加速和優(yōu)化，大幅減少了大規(guī)模生成式 AI 模型的運行時間，提升了 GPU 的效率，優(yōu)化了 AI 平臺的總體擁有成本（TCO）和降低了基礎設施的整體功耗。同時，它還具有高度的通用性，有力的支撐了各種生成式 AI 應用，由于它也是標準的以太網(wǎng)，實現(xiàn)了與已有的基于以太網(wǎng)堆棧的云架構(gòu)和云服務互通。

阿里云作為全球領先的云供應商，擁有巨型的通用計算平臺。同時，阿里云也持續(xù)向加速計算領域擴張，建成并持續(xù)擴張以 “PAI 靈駿” 算力服務為代表大型的 GPU 集群。阿里云基礎設施網(wǎng)絡團隊從 2017 年開始構(gòu)建端網(wǎng)融合的可預期高性能 RDMA 網(wǎng)絡架構(gòu)，過去幾年已經(jīng)在高性能存儲領域?qū)崿F(xiàn)了大規(guī)模部署，目前正在大規(guī)模 AI 計算領域持續(xù)創(chuàng)新迭代和規(guī)模部署，以適配 AI 計算對高性能網(wǎng)絡的訴求。阿里云也充分認識到技術(shù)創(chuàng)新對以太網(wǎng)方案持續(xù)支持高性能網(wǎng)絡，尤其是生成式 AI 基礎設施的重要性。為此，阿里云聯(lián)合 NVIDIA 對 Spectrum-X 解決方案進行測試，以評估新技術(shù)對高性能網(wǎng)絡的適應能力。

測試的主要內(nèi)容和結(jié)果

阿里云測試環(huán)境配置

測試環(huán)境使用了 2 臺 Spine 交換機，4 臺 ToR 交換機，16 臺 HGX GPU 服務器并配置了 NVIDIA BlueField-3 DPU，基于NVIDIA 51.2T Spectrum-4 交換芯片的 SN5600，以太網(wǎng)交換機，支持 128*400G 或者 64*800G 端口。每臺 GPU 服務器配置 8 張 BlueField-3 DPU，每 4 臺 GPU 服務器為一組連接到一臺 ToR 交換機，共 4 組連接到 4 臺 ToR 交換機。ToR 交換機通過 200G 網(wǎng)絡連接到 BlueField-3 DPU，4 臺 ToR 交換機通過 2 臺 Spine 交換機連接在一起，構(gòu)成無阻塞胖樹網(wǎng)絡。

主要的測試內(nèi)容

這些測試由多個級別的工作負載組成，從簡單到復雜:

RDMA 基準性能測試，覆蓋帶寬和延遲。
孤立場景下的 All to All 和 All Reduce 集合通信測試，專注于 NCCL 性能基準。
在共享資源和有背景噪聲環(huán)境下的性能測試。
故障場景的測試。

測試結(jié)果顯示，由于使用了端到端的逐包負載均衡優(yōu)化技術(shù)（Adaptive Routing）和零配置 RoCE 擁塞控制（ZTR CC）使得網(wǎng)絡利用率顯著提升，并顯著減少由于網(wǎng)絡擁塞和 In-Cast 問題帶來的時延和抖動。網(wǎng)絡帶寬利用率在各種測試場景下均可超過 90%。這種逐包負載均衡技術(shù)也可以對多種故障情況（本端和遠端）做出響應，合理的利用網(wǎng)絡內(nèi)的帶寬資源。在真實訓練任務的測試過程中，Spectrum-X 可以降低 20% 以上的訓練時間。在獲得這一切收益的同時，網(wǎng)絡的配置工作量大大降低，運維人員不再需要進行復雜的配置和頻繁的調(diào)優(yōu)工作。

這些測試結(jié)果表明 NVIDIA Spectrum-X 加速網(wǎng)絡平臺的突破性技術(shù)可大幅提升大規(guī)模生成式 AI 工作負載的性能，并大幅縮短生成式 AI 模型的運行時間。通過采用 NVIDIA Spectrum-X 網(wǎng)絡平臺，客戶可進一步為千行百業(yè)的客戶提供極具性能和成本優(yōu)勢的生成式 AI 云服務，將 AI 通用大模型和行業(yè)大模型賦能和融合各種應用場景。NVIDIA 和阿里云的開發(fā)人員將基于 NVIDIA Spectrum-X 網(wǎng)絡平臺的加速軟件和 SDK 進一步在虛擬化、定制化可編程擁塞控制、遙測、快速故障響應等方面展開合作，推動這一新解決方案的進一步發(fā)展和應用。

針對這一聯(lián)合測試，阿里云基礎設施網(wǎng)絡研發(fā)事業(yè)部總經(jīng)理蔡德忠表示：“高性能網(wǎng)絡技術(shù)是 AI 計算 Scaling Law 的關(guān)鍵所在，這個領域需要持續(xù)不斷的創(chuàng)新迭代，阿里云始終堅持網(wǎng)絡的開放性，也是網(wǎng)絡開源生態(tài)的領導者和積極貢獻者，阿里云與 NVIDIA 在 AI 計算和高性能存儲領域合作多年，將持續(xù)探索創(chuàng)新基于 Open Ethernet 的高性能網(wǎng)絡方案，助力 AI 計算集群的大規(guī)模高效擴展。”

NVIDIA 網(wǎng)絡高級副總裁 Gilad Shainer 表示：“生成式 AI（Generative AI）是面向下一代業(yè)務需求的典型代表，為了支撐成千上萬的用戶的需求，生成式 AI 云需要最先進及最可靠的網(wǎng)絡基礎架構(gòu)滿足各種 AI 業(yè)務的平滑增長。阿里云和 NVIDIA 在 Spectrum-X 以太網(wǎng)平臺上的策略合作，可以充分利用 Spectrum-X 的先進路由技術(shù)和云上業(yè)務性能隔離技術(shù)，使阿里云及其廣大用戶可以盡情享受生成式 AI 的服務。”

更多內(nèi)容，敬請查閱 NVIDIA Spectrum-X 網(wǎng)絡平臺架構(gòu)白皮書，進一步了解NVIDIA Spectrum-X 網(wǎng)絡平臺。

更多精彩內(nèi)容

適用于數(shù)據(jù)中心和 AI 時代的網(wǎng)絡
借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲網(wǎng)絡性能
使用 NVIDIA Spectrum-X 網(wǎng)絡平臺加速生成式 AI 工作負載

原文標題：阿里云與 NVIDIA 合作測試以太網(wǎng)絡新架構(gòu)

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3842

瀏覽量
91900

原文標題：阿里云與 NVIDIA 合作測試以太網(wǎng)絡新架構(gòu)

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

面向智能汽車的以太網(wǎng)開發(fā)與測試解決方案

通過參與多個實踐經(jīng)驗，經(jīng)緯恒潤已經(jīng)建立了一套高質(zhì)量且本土化的設計與測試一體化解決方案，為整車網(wǎng)絡架構(gòu)提供可靠的保障。此外，隨著智能化、網(wǎng)聯(lián)化和電子電氣架構(gòu)的變革，經(jīng)緯恒潤積極擴展業(yè)務范

發(fā)表于 12-12 15:24 ?644次閱讀

面向智能汽車的<b class='flag-5'>以太網(wǎng)</b>開發(fā)與<b class='flag-5'>測試</b>解決方案

TOSUN 車載以太網(wǎng)仿真測試解決方案

TOSUN車載以太網(wǎng)仿真測試解決方案隨著自動駕駛、車聯(lián)網(wǎng)和智能化系統(tǒng)的廣泛應用，車載電子組件和傳感器的數(shù)量與復雜性都在持續(xù)增加，為了滿足這些更為復雜性的需求，車載以太網(wǎng)作為一種新型車載網(wǎng)絡

發(fā)表于 12-07 01:07 ?505次閱讀

印尼GOTO、騰訊云與阿里云簽署合作協(xié)議

近日，印尼知名科技公司GOTO與中國的騰訊云、阿里云正式簽署了合作協(xié)議。此次攜手合作，旨在共同推動印尼數(shù)字經(jīng)濟的發(fā)展，為當?shù)仄髽I(yè)提供更加全面

發(fā)表于 11-11 14:32 ?358次閱讀

以太網(wǎng)與光纖網(wǎng)絡的優(yōu)劣比較

隨著信息技術(shù)的飛速發(fā)展，網(wǎng)絡技術(shù)已經(jīng)成為現(xiàn)代社會不可或缺的一部分。以太網(wǎng)和光纖網(wǎng)絡作為兩種主流的網(wǎng)絡技術(shù)，它們在不同的應用場景中展現(xiàn)出各自的優(yōu)勢和局限性。

發(fā)表于 11-08 09:19 ?825次閱讀

以太網(wǎng)速率對網(wǎng)絡性能的影響

以太網(wǎng)作為最廣泛使用的局域網(wǎng)技術(shù)之一，其速率的提高對網(wǎng)絡性能有著直接的影響。從最初的10Mbps發(fā)展到今天的100Gbps甚至更高，以太網(wǎng)速率的提升帶來了更快的數(shù)據(jù)傳輸速度和更高的網(wǎng)絡

發(fā)表于 11-08 09:11 ?499次閱讀

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算機

市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡平臺，該平臺是專為多租戶

發(fā)表于 10-30 09:33 ?176次閱讀

車載以太網(wǎng)的整體架構(gòu)解析

自2011年OPEN聯(lián)盟成立以來，其成立的技術(shù)委員會致力于制定統(tǒng)一的通信方式的物理層、協(xié)議一致性和互操作性等規(guī)范。在IEEE、OPEN 聯(lián)盟和AVNU等組織的共同發(fā)展與合作下，規(guī)范了車載以太網(wǎng)符合

發(fā)表于 10-22 16:42 ?684次閱讀

使用API Post測試阿里云物聯(lián)網(wǎng)平臺動態(tài)注冊

使用API Post測試阿里云物聯(lián)網(wǎng)平臺動態(tài)注冊

發(fā)表于 10-05 19:08 ?380次閱讀

簡單認識NVIDIA網(wǎng)絡平臺

NVIDIA Spectrum-X800 平臺是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡平臺，包括了 NVIDIA Spectrum SN5600 800Gb/s 以太網(wǎng)交換機和

發(fā)表于 09-09 09:22 ?494次閱讀

以太網(wǎng)無法連接外網(wǎng)IP，提示No route to host，為什么？

調(diào)試以太網(wǎng)，創(chuàng)建socket后無法連接外網(wǎng)IP，提示錯誤No route to host。(用的示例protocolssocketstcp_client，以太網(wǎng)芯片選用的w5500) 自己做了實驗

發(fā)表于 06-21 06:43

工業(yè)以太網(wǎng)和普通以太網(wǎng)區(qū)別在哪

的應用環(huán)境和需求不同。普通以太網(wǎng)主要應用于辦公和家庭網(wǎng)絡環(huán)境，而工業(yè)以太網(wǎng)則是為滿足工業(yè)自動化和控制系統(tǒng)的需求而設計的。 1.1 環(huán)境適應性工業(yè)以太網(wǎng)在設計時需要考慮惡劣的工業(yè)環(huán)境，

發(fā)表于 06-11 10:30 ?2935次閱讀

NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡平臺已被業(yè)界廣泛使用

云服務提供商、GPU 云提供商和企業(yè)用戶紛紛采用 Spectrum-X；NVIDIA 網(wǎng)絡通過廣大系統(tǒng)制造商進入各個市場。 ? NVIDIA

發(fā)表于 06-03 18:20 ?1029次閱讀

什么是以太網(wǎng)交換機中的網(wǎng)絡延遲

網(wǎng)絡延遲一詞表示網(wǎng)絡上數(shù)據(jù)通信的延遲。以太網(wǎng)交換機中的網(wǎng)絡延遲或以太網(wǎng)交換機延遲表示以太網(wǎng)數(shù)據(jù)包

發(fā)表于 05-28 10:13 ?591次閱讀

車載以太網(wǎng)交換機的功能及測試方法

車載以太網(wǎng)的通信架構(gòu)和關(guān)鍵技術(shù)參考傳統(tǒng)以太網(wǎng)，采用點對點的通信方式，網(wǎng)絡中節(jié)點超過兩個時需要使用交換機轉(zhuǎn)發(fā)數(shù)據(jù)。

發(fā)表于 04-11 09:57 ?511次閱讀

工業(yè)以太網(wǎng)的基本原理及優(yōu)勢

工業(yè)以太網(wǎng)，作為現(xiàn)代工業(yè)通信的基石，正逐漸改變著傳統(tǒng)工業(yè)網(wǎng)絡的格局。它以其高效、靈活和可靠的特點，在工業(yè)自動化領域得到了廣泛應用。本文將從工業(yè)以太網(wǎng)的基本原理出發(fā)，深入探討其優(yōu)勢及其在工業(yè)領域

發(fā)表于 03-25 14:40 ?795次閱讀