色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通過稀疏支持和Transformer優化增強AI推理

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Saumitra Jagdale ? 2022-07-10 14:12 ? 次閱讀

NVIDIA TensorRT 8 概述

NVIDIA TensorRT 是一個高性能推理平臺,對于利用 NVIDIA Tensor Core GPU 的強大功能至關重要。TensorRT 8 是一個軟件開發套件,其增強功能旨在提高性能和準確性,以應對在邊緣和嵌入式設備中發生的越來越多的 AI 推理。它允許對 TensorFlow 和 PyTorch 神經網絡進行廣泛的計算推理。

與純 CPU 平臺相比,TensorRT 可提供高達 40 倍的吞吐量,同時最大限度地減少延遲。它允許您從任何框架開始,并在生產中快速優化、驗證和部署經過訓練的神經網絡。

新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪對網絡整體計算沒有貢獻的弱連接。此外,TensorRT 8 支持變壓器優化和 BERT-Large。Transformer 優化提高了性能,而量化感知訓練提高了準確性。

NVIDIA 的 TensorRT 8 有哪些新功能?

推理的目的是從訓練階段盡可能多地保留準確性。訓練后的模型可以在硬件設備上運行,以獲得客戶最低的響應時間和最大的吞吐量。但是,盡可能精確的必要性有時可能會與邊緣可用的內存量和吞吐量發生沖突。訓練有素、高度準確的模型可能運行速度太慢。

因此,TensorRT 版本 8 結合了深度學習推理應用或經過訓練的神經網絡模型的最新進展,以了解數據如何影響響??應。它使用兩個主要功能將語言查詢推理時間減少一半:

NVIDIA 安培架構的稀疏性

深度神經網絡擅長各種任務,例如計算機視覺語音識別和自然語言處理。隨著處理這些神經網絡所需的計算能力增加,有效的建模和計算變得越來越重要。

Sparse 是一種適用于具有 NVIDIA Ampere 架構的 GPU 的新性能方法,可通過減少計算過程來提高開發人員的效率。深度學習模型的其他方面不如其他方面重要,有些甚至可以為零。因此,神經網絡不需要對特定的權重或參數進行計算。因此,NVIDIA 可以通過使用稀疏性將模型的權重減少近一半來提高性能、吞吐量和延遲。

通過變壓器優化減少推理計算

在 TensorRT 8 中,性能增強是通過變壓器優化實現的。量化開發人員可以利用經過訓練的模型通過 8 位計算 (INT8) 執行推理。這大大減少了 Tensor 核心中的推理計算和存儲。INT8 越來越多地用于優化機器學習框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以減少內存和計算需求。因此,NVIDIA 可以在保持準確性的同時在 Tensor RT 8 上提供非常高的性能。

例如,量化感知訓練 (QAT) 有可能使準確率翻倍。因此,與舊版本 TensorRT 7 相比,TensorRT 8 可以將許多模型的性能提高一倍。

TensorRT 部署在眾多行業中

TensorRT 更好的性能和準確性使其成為醫療保健、汽車、互聯網/電信服務、金融服務和零售等行業的熱門選擇。例如,Tensor RT 用于為 GE Healthcare 的心血管超聲系統供電。這家數字診斷解決方案提供商使用該技術在其 Vivid E95 掃描儀上加速自動心臟視圖檢測。通過使用改進的視圖檢測算法,心臟病專家可以在早期階段做出更準確的診斷和檢測疾病。此外,TensorRT 還被 Verizon、福特、美國郵政服務、美國運通等知名公司使用。

隨著 Tensor RT 8 的發布,NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示 (BERT) 是一種基于 Transformer 的機器學習技術,用于預訓練自然語言處理。BERT-Large 模型的分析時間僅為 1.2 毫秒,可以實時響應自然語言查詢。這意味著公司可以將其模型的大小增加一倍或三倍,以獲得更高的準確性。

許多推理服務在幕后使用諸如 BERT-Large 之類的語言模型。另一方面,基于語言的應用程序通常無法識別細微差別或情感,從而導致整體體驗不佳。現在,公司可以使用 TensorRT 8 在幾毫秒內部署整個工作流程。這些突破可以為新一代對話式 AI 應用程序鋪平道路,為用戶提供更智能和低延遲的體驗。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 變壓器
    +關注

    關注

    159

    文章

    7524

    瀏覽量

    136138
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10901

    瀏覽量

    212736
  • NVIDIA
    +關注

    關注

    14

    文章

    5075

    瀏覽量

    103560
收藏 人收藏

    評論

    相關推薦

    生成式AI推理技術、市場與未來

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發布,預示著生成式AI研究正從預訓練轉向推理(Inference),以提升AI邏輯推理
    的頭像 發表于 01-20 11:16 ?324次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術、市場與未來

    【書籍評測活動NO.55】AI Agent應用與項目實戰

    強化學習或監督學習算法實現; (2)學習能力:通過持續的數據交互與反饋優化其能力。例如,深度學習模型可以用于處理復雜的數據模式,并實時調整策略。 (3)目標導向:基于明確的目標,AI Agent 能夠
    發表于 01-13 11:04

    港大提出SparX:強化Vision Mamba和Transformer稀疏跳躍連接機制

    本文分享香港大學計算和數據科學學院俞益洲教授及其研究團隊發表于 AAAI 2025 的論文——SparX,一種強化 Vision Mamba 和 Transformer稀疏跳躍連接機制,性能強大
    的頭像 發表于 01-03 09:28 ?133次閱讀
    港大提出SparX:強化Vision Mamba和<b class='flag-5'>Transformer</b>的<b class='flag-5'>稀疏</b>跳躍連接機制

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer
    的頭像 發表于 11-20 09:28 ?599次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    AI推理CPU當道,Arm驅動高效引擎

    本應發揮關鍵作用,但其重要性卻常常被忽視。 ? “對于那些希望將大語言模型(LLM)集成到產品和服務中的企業和開發者來說,CPU 通常是首選”。Arm 中國區業務全球副總裁鄒挺在接受采訪時表示。為了適應AI推理的應用落地,CPU有針對性的
    的頭像 發表于 11-13 14:34 ?2594次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當道,Arm驅動高效引擎

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了
    的頭像 發表于 10-29 14:12 ?681次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    使用OpenVINO C++在哪吒開發板上推理Transformer模型

    OpenVINO 是一個開源工具套件,用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習推理的速度,且支持來自 PyTorch
    的頭像 發表于 10-12 09:55 ?404次閱讀
    使用OpenVINO C++在哪吒開發板上<b class='flag-5'>推理</b><b class='flag-5'>Transformer</b>模型

    AMD助力HyperAccel開發全新AI推理服務器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創企業,致力于開發 AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲器帶寬使用,并通過將此解決方案應用于
    的頭像 發表于 09-18 09:37 ?405次閱讀
    AMD助力HyperAccel開發全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務器

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產算力,東華軟件打造安全可信的基于私有化大模型的“智多型(A.I.Cogniflex)”AI
    的頭像 發表于 07-31 10:51 ?804次閱讀

    如何基于OrangePi?AIpro開發AI推理應用

    通過昇騰CANN軟件棧的AI編程接口,可滿足大多數AI算法原型驗證、推理應用開發的需求。AscendCL(AscendComputingLanguage,昇騰計算
    的頭像 發表于 06-04 14:23 ?584次閱讀
    如何基于OrangePi?AIpro開發<b class='flag-5'>AI</b><b class='flag-5'>推理</b>應用

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    技術的整合支持多達 576 個圖形處理器,提供 3.6 千萬億次網絡內計算,在網絡結構中直接減少和組合張量,優化計算任務并增強圖形處理器集群的可擴展性。 GB200 訓練性能提升至 4 倍,
    發表于 05-13 17:16

    開發者手機 AI - 目標識別 demo

    應用的demo。 應用程序通過相機進行預覽,對預覽畫面中的物體進行目標識別,目前該應用程序支持識別100種物體。 系統架構 下圖為demo應用以及Openharmony AI子系統的架構圖。 目標
    發表于 04-11 16:14

    自然語言處理應用LLM推理優化綜述

    當前,業界在將傳統優化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發,通過調整推理過程和引入新的模型結構來進一步提升推理
    發表于 04-10 11:48 ?665次閱讀
    自然語言處理應用LLM<b class='flag-5'>推理</b><b class='flag-5'>優化</b>綜述

    ONNX Runtime支持龍架構,AI推理生態再添新翼

    近日,備受矚目的AI推理框架開源社區ONNX Runtime宣布推出支持龍架構的新版本1.17.0,這一里程碑式的更新意味著龍芯平臺上的AI推理
    的頭像 發表于 03-27 10:58 ?770次閱讀

    AI推理框架軟件ONNX Runtime正式支持龍架構

    近日,知名AI推理框架開源社區ONNX Runtime正式發布支持龍架構的版本1.17.0。
    的頭像 發表于 03-12 12:23 ?617次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>框架軟件ONNX Runtime正式<b class='flag-5'>支持</b>龍架構
    主站蜘蛛池模板: 草久热的视频在线观看 | 玩弄朋友娇妻呻吟交换电影 | 东北女人奶大毛多水多 | 欧美另类一区 | 双性将军粗壮H灌满怀孕 | 亚洲高清中文字幕 | 中文字幕人成人乱码亚洲影视S | 日本三级按摩推拿按摩 | 漂亮的保姆6在线观看中文 漂亮的保姆5电影免费观看完整版中文 | FREE性丰满白嫩白嫩的HD | 国产欧美一区二区三区免费 | 国外经典三级 | 亚洲欧洲精品A片久久99 | 无码国产成人777爽死 | 性色欲情网站IWWW | 国产亚洲视频在线观看 | 白丝制服被啪到喷水很黄很暴力 | 国产午夜一级淫片 | 国产极品白嫩超清在线观看 | 色婷婷AV国产精品欧美毛片 | 岛国大片在线播放高清 | 国产综合18久久久久久软件 | 337p欧洲亚大胆精品 | 99亚洲精品自拍AV成人软件 | 亚洲精品成人无码区一在线观看 | 99热久这里都是精品小草 | 天天澡夜夜澡人人澡 | 国产www视频| 久久婷婷五月免费综合色啪 | 窝窝午夜色视频国产精品东北 | 手机看片国产日韩欧美 | 护士日本xx厕所 | 午夜婷婷一夜七次郎 | 亚洲日韩乱码人人爽人人澡人 | 恋夜影院支持安卓视频美女 | 羲义嫁密着中出交尾gvg794 | 久就热视频精品免费99 | 最近的中文字幕免费完整 | 色丁香婷婷综合缴情综 | 97视频免费观看2区 97视频免费观看 | 日本国产黄色片 |