NVIDIA Blackwell 架構(gòu)為生成式 AI 和加速計(jì)算帶來(lái)的突破性進(jìn)步。Blackwell 基于多代** NVIDIA 技術(shù)構(gòu)建,以出眾的性能、效率和規(guī)模揭開了生成式 AI 領(lǐng)域的新篇章。
NVIDIA Blackwell Architecture Technical Brief免費(fèi)下載
*附件:NVIDIA Blackwell Architecture Technical Brief.doc
新型 AI 超級(jí)芯片
Blackwell 架構(gòu) GPU 具有 2080 億個(gè)晶體管,采用專門定制的臺(tái)積電 4NP 工藝制造。所有 Blackwell 產(chǎn)品均采用雙倍光刻極限尺寸的裸片,通過 10 TB/s 的片間互聯(lián)技術(shù)連接成一塊統(tǒng)一的 GPU。
第二代 Transformer 引擎
第二代 Transformer 引擎將定制的 Blackwell Tensor Core技術(shù)與 NVIDIA? TensorRT? -LLM 和 NeMo? 框架創(chuàng)新相結(jié)合,加速大語(yǔ)言模型 (LLM) 和專家混合模型 (MoE) 的推理和訓(xùn)練。
為了強(qiáng)效助力 MoE 模型的推理 Blackwell Tensor Core增加了新的精度 (包括新的社區(qū)定義的微縮放格式),可提供較高的準(zhǔn)確性并輕松替換更大的精度。Blackwell Transformer 引擎利用稱為微張量縮放的細(xì)粒度縮放技術(shù),優(yōu)化性能和準(zhǔn)確性,支持 4 位浮點(diǎn) (FP4) AI。這將內(nèi)存可以支持的新一代模型的性能和大小翻倍,同時(shí)保持高精度。
安全 AI
Blackwell 內(nèi)置 NVIDIA 機(jī)密計(jì)算技術(shù),可通過基于硬件的強(qiáng)大安全性保護(hù)敏感數(shù)據(jù)和 AI 模型,使其免遭未經(jīng)授權(quán)的訪問。Blackwell 是業(yè)內(nèi)首款具備可信執(zhí)行環(huán)境 (TEE) I/O 功能的 GPU,它不僅能夠與具備 TEE-I/O 功能的主機(jī)一同提供性能卓越的機(jī)密計(jì)算解決方案,還能通過 NVIDIA? NVLink? 技術(shù)提供實(shí)時(shí)保護(hù)。與未加密模式相比, Blackwell 機(jī)密計(jì)算功能供了幾乎相同的吞吐量性能。現(xiàn)在,除了保護(hù) AI 知識(shí)產(chǎn)權(quán) (IP) 和安全地實(shí)現(xiàn)機(jī)密 AI 訓(xùn)練、推理和聯(lián)邦學(xué)習(xí),企業(yè)甚至還能以高性能的方式保護(hù)最大的模型。
NVLink、NVSwitch 和 NVLink Switch 系統(tǒng)
是否能釋放百億億級(jí)計(jì)算和萬(wàn)億參數(shù) AI 模型的全部潛力取決于服務(wù)器集群中每個(gè) GPU 之間能否快速、順暢的通信。第五代 NVIDIA? NVLink? 可擴(kuò)展至 576 個(gè) GPU,為萬(wàn)億和數(shù)萬(wàn)億參數(shù) AI 模型釋放加速性能。
NVIDIA NVLink 交換機(jī)芯片可在一個(gè)有 72 個(gè) GPU 的 NVLink 域 (NVL72) 中實(shí)現(xiàn) 130TB/s 的 GPU 帶寬,并通過 NVIDIA SHARP? 技術(shù)對(duì) FP8 的支持實(shí)現(xiàn) 4 倍于原來(lái)的帶寬效率。NVIDIA NVLink 交換機(jī)芯片能以驚人的 1.8TB/s 互連速度為多服務(wù)器集群提供支持。采用 NVLink 的多服務(wù)器集群可以在計(jì)算量增加的情況下同步擴(kuò)展 GPU 通信,因此 NVL72 可支持的 GPU 吞吐量是單個(gè) 8 卡 GPU 系統(tǒng)的 9 倍。
解壓縮引擎
過去,數(shù)據(jù)分析和數(shù)據(jù)庫(kù)工作流依賴 CPU 進(jìn)行計(jì)算。加速數(shù)據(jù)科學(xué)可以顯著提高端到端分析性能,加速價(jià)值創(chuàng)造,同時(shí)降低成本。Apache Spark 等數(shù)據(jù)庫(kù)在接手、處理和分析大量數(shù)據(jù)等數(shù)據(jù)分析工作上發(fā)揮著關(guān)鍵作用。
Blackwell 擁有的解壓縮引擎以及通過 900GB/s 雙向帶寬的高速鏈路訪問 NVIDIA Grace? CPU 中大量?jī)?nèi)存的能力,可加速整個(gè)數(shù)據(jù)庫(kù)查詢工作流,從而在數(shù)據(jù)分析和數(shù)據(jù)科學(xué)方面實(shí)現(xiàn)更高性能。Blackwell 支持 LZ4、Snappy 和 Deflate 等最新壓縮格式。
可靠性、可用性和可服務(wù)性 (RAS) 引擎
Blackwell 通過專用的可靠性、可用性和可服務(wù)性 (RAS) 引擎增加了智能恢復(fù)能力,以識(shí)別早期可能發(fā)生的潛在故障,從而更大限度地減少停機(jī)時(shí)間。NVIDIA AI 驅(qū)動(dòng)的預(yù)測(cè)管理功能持續(xù)監(jiān)控硬件和軟件中數(shù)千個(gè)數(shù)據(jù)點(diǎn)的整體運(yùn)行狀況,以預(yù)測(cè)和攔截停機(jī)時(shí)間和低效的來(lái)源。這建立了智能可靠性技術(shù),節(jié)省時(shí)間、能源和計(jì)算成本。
NVIDIA 的 RAS 引擎提供深入的診斷信息,可以識(shí)別關(guān)注領(lǐng)域并制定維護(hù)計(jì)劃。RAS 引擎通過快速定位問題來(lái)源縮短周轉(zhuǎn)時(shí)間,并通過促進(jìn)有效的補(bǔ)救最大限度地減少停機(jī)時(shí)間。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5140瀏覽量
104681
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片
jAVA語(yǔ)言環(huán)境白皮書
最新的智能電網(wǎng)的白皮書資料
簡(jiǎn)儀科技怒對(duì)LabVIEW的白皮書
NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬(wàn)億參數(shù)級(jí)的生成式 AI 超級(jí)計(jì)算

評(píng)論