亚洲精品欧美,一半海水一半火焰在线,亚洲国产欧美另类va在线观看

多樣性不僅是生活的調(diào)味品，也是推動創(chuàng)新和降低風險的方式。這就是為什么我們看到交換機架構(gòu)不斷發(fā)展以驅(qū)動特定類型的 AI 工作負載，就像我們在過去兩年半的時間里看到的 HPC 模擬和建模工作負載一樣。

Hyperion Research：SC22 HPC Market Update（2022.11）

Hyperion Research：ISC22 Market Update（2022.5）

Intersect360全球HPC-AI市場報告（2022—2026）

Intersect360 AMD CPU和GPU調(diào)研白皮書

在橫向擴展人工智能訓練的早期——也就是從 2010 年到現(xiàn)在——InfiniBand 是 HPC 模擬和建模的首選低延遲網(wǎng)絡(luò)之一，它崛起成為主要的網(wǎng)絡(luò)互連，將擠滿了 GPU 的節(jié)點粘合在一起。但許多 AI 初創(chuàng)公司，如 Cerebras Systems、SambaNova Systems、GraphCore 和英特爾的 Gaudi 都有自己的互連，谷歌也是如此，其光開關(guān)是其 TPUv4 矩陣數(shù)學巨頭的核心。如果你想大方一點，你可以說 Cray（現(xiàn)在是惠普企業(yè)的一部分）創(chuàng)建的以太網(wǎng)的 Slingshot 變體也是一種自定義互連，可以（并且將會）以百億億次級運行 AI 工作負載。

在推動人工智能革命的超大規(guī)模和云構(gòu)建巨頭中，博通在交換和路由半導體領(lǐng)域占據(jù)主導市場份額，它希望在人工智能網(wǎng)絡(luò)行動中分得一杯羹。因此，該公司采用“Jericho”系列交換機和路由 ASIC 及其深度數(shù)據(jù)包緩沖區(qū)，并專門重新設(shè)計它們以承擔 AI 工作負載，最初的 Jericho3-AI 交換機芯片是該設(shè)計的第一個實例。通過這種設(shè)計，Broadcom 已經(jīng)將 InfiniBand 牢牢地放在了自己的視線之內(nèi)，而且絕對是在爭取它。

這意味著，除其他外，Broadcom 將讓 Arista Networks 和云構(gòu)建者和超大規(guī)模應(yīng)用者使用的白盒交換機制造商集體在其主場 AI 領(lǐng)域與 Nvidia 競爭，其中包括強大的 AI 軟件堆棧、GPU 以及即將推出的 CPU 和 GPU內(nèi)存互連以及Nvidia 從三年前完成的 69 億美元收購中獲得的InfiniBand 網(wǎng)絡(luò)硬件和軟件。

借助 Jericho3-AI 芯片，Broadcom 正在重新設(shè)計深度緩沖 Jericho 芯片系列，這些芯片通常被超大規(guī)模用戶和云構(gòu)建者用來執(zhí)行路由和交換功能，并為它們提供通常用于集體操作的性能。AI 和 HPC 使它們在 AI 工作負載方面與 InfiniBand 具有絕對競爭力，并賦予它們標準以太網(wǎng) ASIC 所不具備的功能，包括在各種規(guī)模的數(shù)據(jù)中心中常用的“Trident”和“Tomahawk”系列中的功能。

Jericho3-AI 芯片使用相同的“Peregrine”系列 SerDes 信號電路，該電路在2022 年 8 月發(fā)布的“Tomahawk5”葉/主干以太網(wǎng)交換機 ASIC中首次亮相。Broadcom Trident 和 Tomahawk 交換機產(chǎn)品線的產(chǎn)品線經(jīng)理 Peter Del Vecchio 向我們介紹了 Jericho3-AI，他說 Tomahawk5 ASIC 于今年 3 月開始批量出貨，這意味著我們應(yīng)該很快就會看到它出現(xiàn)在交換機中。

Tomahawk5 在某些方面是比 Jericho3-AI 更強大的設(shè)備，但它具有更適度的緩沖區(qū)，并且專為在這些超大規(guī)模和云構(gòu)建者的 Clos 網(wǎng)絡(luò)中完成的架頂和葉交換而設(shè)計。Tomahawk5 采用臺灣半導體制造公司的 5 納米工藝實現(xiàn)，其中 512 個 Peregrine SerDes 以 100 Gb/秒的速度運行（通過信號的 PAM-4 調(diào)制啟用）包裹在數(shù)據(jù)包處理引擎和適度的緩沖區(qū)周圍以創(chuàng)建一個設(shè)備總帶寬為 51.2 Tb/秒。Jericho3-AI 芯片也采用 TSMC 的 5 納米工藝蝕刻，具有 304 個相同的 SerDes，其中 144 個分配給下行鏈路，其中 160 個延伸到網(wǎng)絡(luò)中更高層的 Ramon 3 結(jié)構(gòu)元素，充當leaf 和spine開關(guān)。像這樣：

您會注意到圖中的交換機端口直接鏈接到 GPU，這不是錯誤。越來越多的架構(gòu)將這樣做。為什么要通過服務(wù)器總線來鏈接 GPU？重要的是，Ramon 3 結(jié)構(gòu)元素（本質(zhì)上是spine互連）和 Jericho3-AI leaf或架頂式交換機的規(guī)模允許超過 32，000 個 GPU 在 Clos 拓撲中鏈接到一個龐大的 AI 訓練系統(tǒng)中，以 800 Gb/秒的速度運行的端口。不可否認，今天沒有服務(wù)器的端口運行速度超過 200 Gb/秒或 400 Gb/秒，因為適配卡還沒有以這些本機速度運行。在 2025 年時間框架內(nèi) PCI-Express 6.0 插槽在服務(wù)器中可用之前，這可能不會發(fā)生。

現(xiàn)在，當微軟為自己和它在 AI 框架中的合作伙伴 OpenAI 運行 GPT 訓練時，它使用標準的 HGX GPU 系統(tǒng)板綁定到服務(wù)器主機節(jié)點，并通過一個 400 Gb/秒的 ConnectX CX7 網(wǎng)絡(luò)接口相互鏈接，用于八 GPU 系統(tǒng)中的每個 GPU。微軟 Azure 在 InfiniBand 網(wǎng)絡(luò)上使用胖樹（fat tree）拓撲，就像許多 HPC 商店所做的那樣，并且還使用消息傳遞接口（MPI）協(xié)議來調(diào)度數(shù)據(jù)和計算，跨 4，000 個 GPU 鏈接到一個集群，以運行 GPT 和其他框架。作為單例。微軟將根據(jù)需要增加它，如果 Jericho3-AI 芯片為人工智能工作負載提供更好的性能和經(jīng)濟性，那么微軟架構(gòu)中的任何內(nèi)容都不會阻止它遷移到基于 Broadcom Dune StrataDNX 系列的結(jié)構(gòu)，其中 Jericho3 -AI和Ramon 3是一部分。

同上所有其他云和超大規(guī)模。

這是關(guān)于 Tomahawk5 和 Jericho3-A1 的巧妙之處，因為它們使用了 Peregrine SerDes。按照這些 SerDes 的設(shè)計方式，它們可以使用所謂的線性驅(qū)動光學器件直接驅(qū)動光學器件，這意味著 SerDes 可以直接與光學器件中的跨阻放大器對話，而無需在其前面安裝數(shù)字信號處理器。此外，Peregrine SerDes 可以將信號向下推送到 4 米直連銅（DAC）電纜——是 IEEE 規(guī)范電纜長度的兩倍——無需重定時器或中繼器。盡管此選項尚未商業(yè)化，但如果 Broadcom 的客戶希望進一步降低熱量、每比特成本和延遲，則可以使用 Peregrine SerDes 來驅(qū)動共同封裝的光學器件。

從技術(shù)上講，Jericho3-AI 芯片的額定速度為 14.4 Tb/秒，因為只有 144 個 SerDes 驅(qū)動下行鏈路，其余 160 個 SerDes，即 16 Tb/秒，不計入設(shè)備的官方吞吐量。芯片上可能有更多的物理SerDes，這是一個單片器件，不是由chiplet組成的，目的是在5納米器件上的反良率被屏蔽后，增加有效SerDes的數(shù)量。（這在當今所有復雜的半導體設(shè)備設(shè)計和制造中都很常見。）如果我們有 Jericho3-AI 的die照片，我們肯定會知道。。 . 。

Jericho3-AI 芯片專門設(shè)計用于在分布式模型中的每個計算步驟結(jié)束時執(zhí)行集體操作（尤其是 all-to-all 或 all reduce 操作）時幫助處理網(wǎng)絡(luò)上的復雜流。這些功能在大型語言模型和推薦系統(tǒng)中至關(guān)重要，它們具有非常不同的特征并且需要稍微不同的硬件（這就是為什么“Hopper”GPU 需要緊密耦合的“Grace”CPU 用于未來專注于推薦系統(tǒng)的 Nvidia 系統(tǒng)）。

Meta Platforms 基礎(chǔ)設(shè)施副總裁 Alexis Bjorlin在去年 10 月的開放計算項目峰會上的主題演講中談到了其“Grand Teton”AI 系統(tǒng)和配套“Grand Canyon”存儲陣列的設(shè)計，而我們并不知道她分享了下圖涉及四種不同的機器學習模型，這些模型是Meta Platforms 使用的深度學習推薦模型（DLRM）推薦系統(tǒng)的一部分，該系統(tǒng)于 2019 年 7 月開源：

此圖表顯示的是在下一個計算步驟開始之前等待集體操作在網(wǎng)絡(luò)上運行所浪費的 CPU 時間百分比。它是掛鐘時間減去計算時間除以掛鐘時間，得到網(wǎng)絡(luò)時間。

現(xiàn)在，這些龐大的 AI 集群中的單個節(jié)點成本可能為 400，000 到 500，000 美元，根據(jù)模型的不同，有 18%、35%、38% 或 57% 的時間都在那里，這確實是一個非常昂貴的提議。通過針對 AI 工作負載優(yōu)化的網(wǎng)絡(luò)，集體操作的網(wǎng)絡(luò)效率的任何變化都意味著 CPU-GPU 硬件投資不會按比例浪費。

為了解 Jericho3-AI 如何與 InfiniBand 競爭，Broadcom 與其中一家超大規(guī)模廠商合作，更換了連接 GPU 加速計算節(jié)點的 200 Gb/秒 InfiniBand 交換機，并將該 InfiniBand 交換機替換為以太網(wǎng)交換機。這兩款交換機都運行 Nvidia 集體通信庫（NCCL），這是一種由 Nvidia 創(chuàng)建的集體操作網(wǎng)絡(luò)軟件驅(qū)動程序，旨在為密集的 GPU 分組提供比在 CPU 內(nèi)核或插槽上運行普通 MPI 更好的集體操作性能。NCCL 是拓撲感知的，這意味著它知道計算節(jié)點內(nèi)的快速和fat NVLink 管道與跨節(jié)點的 InfiniBand 或以太網(wǎng)管道之間的區(qū)別。這些不是非此即彼的命題，NCCL 和 MPI 經(jīng)常一起使用。

以下是在支持 InfiniBand 或以太網(wǎng)協(xié)議的 ConnectX-6 SmartNIC 上具有多達 16 個 200 Gb/秒端口的服務(wù)器與基于 Nvidia 的 Quantum 2 ASIC 或 Broadcom 的 Jericho3-AI ASIC 的交換機之間的性能差異：

您必須仔細觀察 Y 軸，因為兩個交換機的整體集體操作性能不是從 0 Gb/秒到 125 Gb/秒，而是從 95 Gb/秒到 125 Gb/秒，這意味著此圖表中的性能增量在視覺上比實際大。結(jié)果是，幾乎無論消息大小如何，Jericho3-AI 芯片提供的吞吐量比運行相同 AI 訓練工作負載的 InfiniBand 交換機高出約 10%。

現(xiàn)在，如果您查看 Meta Platforms 提供的圖表，10% 是一個大問題。任何能提高網(wǎng)絡(luò)有效加速的東西都會縮短集體操作的掛鐘時間。Del Vecchio 告訴The Next Platform，Jericho3-AI switch 的性能提速對于所有 reduce 集體操作也有大約 10%（但我們沒有這方面的圖表）。這意味著完成 AI 訓練運行的時間也將縮短，如果時間就是金錢——通常是在涉及 AI 和 HPC 工作負載時——那么可以同時訓練更多模型。再加上節(jié)能和更長的 DAC，Broadcom 將在 AI 培訓方面擁有令人信服的價值主張，以與 InfiniBand 競爭。

Broadcom 如何為 InfiniBand 帶來熱度？Jericho3-AI 芯片有一些功能名稱看起來非常奇特，但歸根結(jié)底是更好的負載平衡和擁塞控制，可以減少網(wǎng)絡(luò)爭用并改善網(wǎng)絡(luò)延遲，坦率地說，這比降低延遲更重要在交換機內(nèi)部端口到端口的跳躍上，與基于 ASIC（如 Tridents 和 Tomahawks）的傳統(tǒng)數(shù)據(jù)中心級以太網(wǎng)交換機及其來自 Cisco Systems 的競爭產(chǎn)品相比，InfiniBand 具有巨大的優(yōu)勢——大約 3 到 4 倍或更多（那是我們說的，不是 Broadcom。但這是真的。）

Jericho3-AI 芯片的兩個重要特性就是 Broadcom 夸張地稱之為完美的負載平衡和無擁塞操作。這是一張從概念上顯示它們?nèi)绾螀f(xié)同工作的圖片：

我們高度懷疑任何負載平衡是否“完美”或網(wǎng)絡(luò)操作是否可以“無擁塞”，但顯然，根據(jù) Broadcom 展示的結(jié)果，Jericho3-AI 在 AI 訓練工作負載方面將比 Tomahawk 做得更好或 Trident ASIC 可以并且基于這組有限的性能數(shù)據(jù)，應(yīng)該讓 InfiniBand 與 AI 訓練資金競爭。

我們的問題是：Jericho3-AI 芯片是否會像 InfiniBand 那樣幫助處理傳統(tǒng)的 HPC 模擬和建模工作負載？

“這取決于 HPC 的類型，”Del Vecchio 說?！暗绻掏铝繉?yīng)用程序很重要，那當然是肯定的。HPC 應(yīng)用程序也將獲得這些好處，您最終將獲得無擁塞操作、非常好的負載平衡以及更有效地利用鏈接。與 HPC 相比，AI 更傾向于關(guān)注整個網(wǎng)絡(luò)的原始吞吐量，后者才是最重要的端到端延遲。HPC 有很多非常短的消息，因此消息速率非常關(guān)鍵。所以有一些不同。但關(guān)鍵是要確保負載平衡，如果沒有擁塞——這些將同樣適用于 AI 和 HPC?！?/p>

Jericho3-AI 開關(guān)芯片現(xiàn)在正在出樣，預(yù)計會像 Tomahawk5 那樣有相對較快的提升。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
456

文章
51155

瀏覽量
426324
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4768

瀏覽量
129227
網(wǎng)絡(luò)硬件

網(wǎng)絡(luò)硬件

+關(guān)注

關(guān)注
0

文章
10

瀏覽量
6192

原文標題：一顆Jericho3-AI芯片，用來替代InfiniBand？

文章出處：【微信號：AI_Architect，微信公眾號：智能計算芯世界】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

用一顆TXB0104可以進行串口電壓轉(zhuǎn)換嗎？

TXB0104現(xiàn)在有兩對串口 TXD,RXD共4路信號，他們是1.8伏的，需要轉(zhuǎn)成3.3伏的，問用一顆TXB0104可以嗎？

發(fā)表于 01-21 09:01

一顆光譜芯片的AI輝光

讓光譜技術(shù)走進消費級市場，AI究竟對一枚芯片做了什么

發(fā)表于 01-05 10:56 ?2343次閱讀

<b class='flag-5'>一顆</b>光譜<b class='flag-5'>芯片</b>的<b class='flag-5'>AI</b>輝光

用一顆5G的204B接口DA芯片，DA芯片的輸入時鐘大小和輸入數(shù)據(jù)的速率是怎么樣的關(guān)系？

假設(shè)我用一顆5G的204B接口DA芯片，DA芯片的輸入時鐘大小和輸入數(shù)據(jù)的速率是怎么樣的關(guān)系

發(fā)表于 12-18 07:43

一顆射頻開關(guān)的獨白

轉(zhuǎn)載自——鐘林談芯一顆射頻開關(guān)成就卓勝微，便催生出一百個卓勝微夢。時代需要榜樣，追夢人在路上。卓勝微靠著一顆射頻開關(guān)起死回生，靠著一顆射頻開關(guān)成功上市。射頻開關(guān)已經(jīng)不只是代表射頻前端芯片

發(fā)表于 11-14 16:22 ?239次閱讀

請問AIC3254能不能替代C5502+AIC32B？

問題：我把AIC32B采集到的數(shù)據(jù)通過C5502進行分包處理，比如頻率倒序、數(shù)據(jù)加密，我有自己的算法，我想用AIC3254一顆芯片加MCU替代，不知道可行不可行?。空垖＜医o予回復?。≡诰€等待！

發(fā)表于 11-07 07:04

兩顆TAS5711，一顆作2.0輸出，一顆作PBTL輸出，共用一個I2S_DATA時發(fā)現(xiàn)失真增大，為什么？

你們晚上好，請指導解決一個問題：問題描述：兩顆TAS5711，一顆設(shè)置為2.0輸出:16W*2CH，一顆設(shè)置為PBTL輸出:36W*1CH，共用

發(fā)表于 10-25 15:59

InfiniBand網(wǎng)絡(luò)內(nèi)計算的關(guān)鍵技術(shù)和應(yīng)用

網(wǎng)絡(luò)內(nèi)計算領(lǐng)域，其在此領(lǐng)域的應(yīng)用正在逐步擴大。通過在網(wǎng)絡(luò)內(nèi)部執(zhí)行計算任務(wù)，InfiniBand進一步降低了延遲并提升了整體系統(tǒng)效率，有力推動了HPC和AI領(lǐng)域向更高性能和更強智能邁進。

發(fā)表于 10-23 11:33 ?442次閱讀

OPA197如果使用多階，用一顆跟隨器提供基準電壓是否可行？

目前使用該芯片做濾波器性能，每一階使用一顆作為跟隨，一顆來做濾波器。 Q1、如果使用多階，用一顆跟隨器提供基準電壓是否可行，自測過，覺得不

發(fā)表于 08-16 15:08

鈺泰ETA300X主動均衡芯片，一顆可以劫富濟貧的芯片

芯片從ETA3000一顆芯片發(fā)展成ETA300X系列芯片群，市場認可度逐漸提高，成為了電源管理芯片領(lǐng)域獨

發(fā)表于 08-14 23:07 ?1629次閱讀

HT7017 是一顆帶 UART 通訊接口的高精度單相多功能計量芯片

1.芯片簡介HT7017是一顆帶UART通訊接口的高精度單相多功能計量芯片。芯片的工作電壓范圍是4.5～5.5V。工作晶振為6MHz。2.芯片

發(fā)表于 06-19 16:57 ?1303次閱讀

求推薦一顆2.4G純放大功能的芯片

有哪位大神可以幫忙推薦一顆2.4G純放大功能的芯片單通道的PA芯片，沒有倆個控制功能，就是單向純放大器

發(fā)表于 04-26 10:19

一顆改變了世界的芯片

英特爾突破性的8008微處理器于50多年前首次生產(chǎn)。這是英特爾的第一個8位微處理器，也是您現(xiàn)在可能正在使用的x86處理器系列的祖先。我找不到8008的好的Die照片，所以我打開了一顆并拍了一些詳細

發(fā)表于 04-20 08:10 ?959次閱讀

一顆芯片的典型設(shè)計流程

芯片設(shè)計流程的第一步是定義芯片的要求和規(guī)格。這包括定義您的產(chǎn)品將做什么、如何使用以及您需要滿足哪些性能指標。一旦定義了這些要求，就可以將它們用作設(shè)計架構(gòu)和布局的輸入。

發(fā)表于 04-09 11:24 ?1017次閱讀

PD+QC協(xié)議誘騙芯片，一顆芯片解決您的無線充煩惱FS8025BH

在手機快充充電器/車充等里面有一顆PD/QC或者三星的AFC協(xié)議芯片，我們把這個協(xié)議芯片叫做供電端協(xié)議芯片。我們經(jīng)?？吹匠潆娖饔?8W、20W、45W和65W等等，支持的輸出電壓有5V

發(fā)表于 03-04 17:28 ?837次閱讀

炒到9萬的蘋果頭顯，內(nèi)含一顆國產(chǎn)芯片！

來源：集微網(wǎng)，謝謝編輯：感知芯視界 Link 集微網(wǎng)消息，近日國外知名拆解機構(gòu)iFixit對Vision Pro進行了芯片級拆解，結(jié)果顯示該設(shè)備內(nèi)含大量德州儀器（TI）芯片，還有一顆國產(chǎn)芯

發(fā)表于 02-19 09:30 ?503次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一顆Jericho3-AI芯片，用來替代InfiniBand？

評論

用一顆TXB0104可以進行串口電壓轉(zhuǎn)換嗎？

一顆光譜芯片的AI輝光

用一顆5G的204B接口DA芯片，DA芯片的輸入時鐘大小和輸入數(shù)據(jù)的速率是怎么樣的關(guān)系？

一顆射頻開關(guān)的獨白

請問AIC3254能不能替代C5502+AIC32B？

兩顆TAS5711，一顆作2.0輸出，一顆作PBTL輸出，共用一個I2S_DATA時發(fā)現(xiàn)失真增大，為什么？

InfiniBand網(wǎng)絡(luò)內(nèi)計算的關(guān)鍵技術(shù)和應(yīng)用

OPA197如果使用多階，用一顆跟隨器提供基準電壓是否可行？

鈺泰ETA300X主動均衡芯片，一顆可以劫富濟貧的芯片

HT7017 是一顆帶 UART 通訊接口的高精度單相多功能計量芯片

求推薦一顆2.4G純放大功能的芯片

一顆改變了世界的芯片

一顆芯片的典型設(shè)計流程

PD+QC協(xié)議誘騙芯片，一顆芯片解決您的無線充煩惱FS8025BH

炒到9萬的蘋果頭顯，內(nèi)含一顆國產(chǎn)芯片！

搜索歷史

一顆Jericho3-AI芯片，用來替代InfiniBand？

評論

一顆Jericho3-AI芯片，用來替代InfiniBand？