色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達H100 Transformer引擎加速AI訓練 準確而且高達6倍性能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-04-01 09:24 ? 次閱讀

在當今計算平臺上,大型 AI 模型可能需要數月來完成訓練。而這樣的速度對于企業來說太慢了。

隨著一些模型(例如大型語言模型)達到數萬億參數,AI、高性能計算和數據分析變得日益復雜。

NVIDIA Hopper 架構從頭開始構建,憑借強大的算力和快速的內存來加速這些新一代 AI 工作負載,從而處理日益增長的網絡和數據集。

Transformer 引擎是全新 Hopper 架構的一部分,將顯著提升 AI 性能和功能,并助力在幾天或幾小時內訓練大型模型。

使用 Transformer 引擎訓練 AI 模型

Transformer 模型是當今廣泛使用的語言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初針對自然語言處理用例而開發,但因其通用性,現在逐步應用于計算機視覺、藥物研發等領域。

與此同時,模型大小不斷呈指數級增長,現在已達到數萬億個參數。由于計算量巨大,訓練時間不得不延長到數月,而這樣就無法滿足業務需求。

Transformer 引擎采用 16 位浮點精度和新增的 8 位浮點數據格式,并整合先進的軟件算法,將進一步提升 AI 性能和功能。

AI 訓練依賴浮點數,浮點數是小數,例如 3.14。TensorFloat32 (TF32) 浮點格式是隨 NVIDIA Ampere 架構而面世的,現已成為 TensorFlow 和 PyTorch 框架中的默認 32 位格式。

大多數 AI 浮點運算采用 16 位“半”精度 (FP16)、32 位“單”精度 (FP32),以及面向專業運算的 64 位“雙”精度 (FP64)。Transformer 引擎將運算縮短為 8 位,能以更快的速度訓練更大的網絡。

與 Hopper 架構中的其他新功能(例如,在節點之間提供直接高速互連的 NVLink Switch 系統)結合使用時,H100 加速服務器集群能夠訓練龐大網絡,而這些網絡此前幾乎無法以企業所需的速度進行訓練。

更深入地研究 Transformer 引擎

Transformer 引擎采用軟件和自定義 NVIDIA Hopper Tensor Core 技術,該技術旨在加速訓練基于常見 AI 模型構建模塊(即 Transformer)構建的模型。這些 Tensor Core 能夠應用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 計算。采用 FP8 的 Tensor Core 運算在吞吐量方面是 16 位運算的兩倍。

模型面臨的挑戰是智能管理精度以保持準確性,同時獲得更小、更快數值格式所能實現的性能。Transformer 引擎利用定制的、經NVIDIA調優的啟發式算法來解決上述挑戰,該算法可在 FP8 與 FP16 計算之間動態選擇,并自動處理每層中這些精度之間的重新投射和縮放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每層統計分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型精度的同時實現最佳性能。

與上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架構還將每秒浮點運算次數提高了三倍,從而在第四代 Tensor Core 的基礎上實現了進一步提升。Hopper Tensor Core 與 Transformer 引擎和第四代 NVLink 相結合,可使 HPC 和 AI 工作負載的加速實現數量級提升。

加速 Transformer 引擎

AI 領域的大部分前沿工作都圍繞 Megatron 530B 等大型語言模型展開。下圖顯示了近年來模型大小的增長趨勢,業界普遍認為這一趨勢將持續發展。許多研究人員已經在研究用于自然語言理解和其他應用的超萬億參數模型,這表明對 AI 計算能力的需求有增無減。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然語言理解模型仍在快速增長。

為滿足這些持續增長的模型的需求,高算力和大量高速內存缺一不可。NVIDIA H100 Tensor Core GPU 兩者兼備,再加上 Transformer 引擎實現的加速,可助力 AI 訓練更上一層樓。

通過上述方面的創新,就能夠提高吞吐量,將訓練時間縮短 9 倍——從 7 天縮短到僅 20 個小時:

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

與上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的訓練吞吐量,從而可在合理的時間內訓練大型模型。

Transformer 引擎還可用于推理,無需進行任何數據格式轉換。以前,INT8 是實現出色推理性能的首選精度。但是,它要求經訓練的網絡轉換為 INT8,這是優化流程的一部分,而 NVIDIA TensorRT 推理優化器可輕松實現這一點。

使用以 FP8 精度訓練的模型時,開發者可以完全跳過此轉換步驟,并使用相同的精度執行推理操作。與 INT8 格式的網絡一樣,使用 Transformer 引擎的部署能以更小的內存占用空間運行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,響應延遲為 1 秒,這表明它是適用于 AI 部署的上佳平臺:

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

對于低延遲應用,Transformer 引擎還可將推理吞吐量提高 30 倍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31490

    瀏覽量

    269907
  • 英偉達
    +關注

    關注

    22

    文章

    3842

    瀏覽量

    91688
  • H100
    +關注

    關注

    0

    文章

    31

    瀏覽量

    299

原文標題:GTC22 | H100 Transformer 引擎大幅加速 AI 訓練,在不損失準確性的情況下提供高達 6 倍的性能

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    英偉H100芯片市場降溫

    隨著英偉新一代AI芯片GB200需求的不斷攀升,其上一代明星產品H100芯片卻遭遇了市場的冷落。據業內人士透露,搭載H100的服務器通常以
    的頭像 發表于 10-28 15:42 ?701次閱讀

    英偉推出歸一化Transformer,革命性提升LLM訓練速度

    了新的突破。 相較于傳統的Transformer架構,nGPT在保持原有精度的同時,直接將大型語言模型(LLM)的訓練速度提升了高達20。這一顯著的
    的頭像 發表于 10-23 11:30 ?427次閱讀

    英偉發布AI模型 Llama-3.1-Nemotron-51B AI模型

    模型在單個H100 GPU上的表現非常優秀,在推理過程中可以在單個 GPU 上運行 4 以上的工作負載。這使得單片H100 GPU即可處理更大型的推理任務;
    的頭像 發表于 09-26 17:30 ?643次閱讀

    馬斯克自曝訓練Grok 3用了10萬塊NVIDIA H100

    在科技界的前沿陣地上,埃隆·馬斯克再次以其前瞻性的視野和大膽的嘗試引領著新的風潮。近日,馬斯克在社交媒體X上的一則回應,不經意間透露了其即將推出的AI聊天機器人Grok 3背后的驚人秘密——這款被馬斯克譽為“非常特別”的AI產品,竟然是通過10萬塊
    的頭像 發表于 07-03 14:16 ?542次閱讀

    只能跑TransformerAI芯片,卻號稱全球最快?

    電子發燒友網報道(文/周凱揚)近日,一家由哈佛輟學生成立的初創公司Etched,宣布了他們在打造的一款“專用”AI芯片Sohu。據其聲稱該芯片的速度將是英偉H100的20
    的頭像 發表于 07-01 09:03 ?1473次閱讀

    首批1024塊H100 GPU,正崴集團將建中國臺灣最大AI計算中心

    中國臺灣當地正崴集團5月27日宣布,將與日本公司Ubitus共同打造人工智能(AI)計算中心,其中第一期將導入128個機柜,共計1024張英偉H100旗艦計算卡,旨在構建臺灣最大的
    的頭像 發表于 05-29 10:05 ?1227次閱讀

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    NVIDIA NVLink,支持 FP4 AI 精度。 GB200 NVL72是一款性能卓越的計算平臺,采用更快的第二代Transformer引擎和FP8精度,可將大型語言模型的
    發表于 05-13 17:16

    英特爾的最強AI芯片要來了,聲稱性能完勝英偉H100

    增加了近1.5。 與競爭對手的正面對標也不落下風。英特爾聲稱Gaudi3已全面超越英偉去年發布的H100芯片:運行
    的頭像 發表于 04-11 23:36 ?502次閱讀

    英偉發布超強AI加速卡,性能大幅提升,可支持1.8萬億參數模的訓練

    得益于NVIDIA每兩年進行一次GPU架構升級以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更為強大,尤其適用于AI相關任務。
    的頭像 發表于 03-19 12:04 ?874次閱讀

    英偉H200帶寬狂飆

    英偉H200帶寬的顯著提升主要得益于其強大的硬件配置和先進的技術創新。H200配備了高達141GB的HBM3e顯存,與前代產品
    的頭像 發表于 03-07 16:44 ?1012次閱讀

    英偉H200和A100的區別

    英偉H200和A100兩款芯片在性能、架構、內存以及應用場景等多個方面存在顯著的區別。
    的頭像 發表于 03-07 16:23 ?3828次閱讀

    英偉H200顯卡價格

    英偉H200顯卡的具體價格尚未公布。根據上一代H100顯卡的價格范圍,預計H200的單片價格將超過40000美元。由于新芯片通常定價較高,
    的頭像 發表于 03-07 16:09 ?5571次閱讀

    英偉H200和H100的比較

    英偉H200和H100是兩款不同的AI芯片,它們各自具有獨特的特點和優勢。以下是關于這兩款芯片的一些比較。
    的頭像 發表于 03-07 15:53 ?4907次閱讀

    英偉:預計下一代AI芯片B100短缺,計劃擴產并采用新架構

    近期熱門的 H100 芯片運期短縮數天后,英偉新型 AI 旗艦芯片 B100搭載全新的 Blackwell,有望使
    的頭像 發表于 02-25 09:29 ?981次閱讀

    【機器視覺】歡創播報 | 英偉拿下全球90%的AI芯片市場

    預計最高可能已經達到了90%,創下新高紀錄。在目前的人工智能智能加速芯片市場,英偉的A100/H100系列
    的頭像 發表于 02-01 11:29 ?786次閱讀
    主站蜘蛛池模板: 99午夜高清在线视频在观看 | 东京热无码中文字幕av专区 | 99热免费精品店 | 中国欧美日韩一区二区三区 | 日本夜爽爽一区二区三区 | avtt一区 | 亚洲一日韩欧美中文字幕在线 | 亚洲色无码播放 | 艳鉧动漫片1~6全集在线 | 肉奴隷 赤坂丽在线播放 | 十分钟免费视频大全在线 | 胖老太与人牲交BBWBBW高潮 | 久久免费看少妇级毛片蜜臀 | 乱h好大噗嗤噗嗤烂了 | 国产精品无码久久久久不卡 | 亚洲AV永久无码精品老司机蜜桃 | 亚洲在线成色综合网站 | 正在播放一区二区 | 欧美亚洲高清国产 | 伊人久久影院大香线蕉 | 中文字幕日本久久2019 | 日本久久久 | 456亚洲人成在线播放网站 | 久久国产影院 | 达达兔欧美午夜国产亚洲 | 亚洲中文字幕无码爆乳APP | 国产精品亚洲精品久久品 | 久久久久青草大香线综合精品 | 动漫护士被乳羞羞漫 | 美女露出逼 | 囯产精品久久久久久久久免费蜜桃 | 亚洲精品成人在线 | 国产精品免费观看视频 | 飘雪韩国在线观看免费高清完整版 | OLDMAN老头456 TUBE| 九九精品在线播放 | 天美传媒在线观看完整高清 | 野花日本手机观看大全免费3 | 午夜福利免费院 | 午夜噜噜噜私人影院在线播放 | 午夜国产精品视频在线 |