色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA QAT工具包實現TensorRT量化網絡的設計

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-06-21 16:54 ? 次閱讀

出身背景

加速深層神經網絡( DNN )推理是實現實時應用(如圖像分類、圖像分割、自然語言處理等)延遲關鍵部署的重要步驟。

改進 DNN 推理延遲的需要引發了人們對以較低精度運行這些模型的興趣,如 FP16 和 INT8 。在 INT8 精度下運行 DNN 可以提供比其浮點對應項更快的推理速度和更低的內存占用。 NVIDIA TensorRT 支持訓練后量化( PTQ )和 QAT 技術,將浮點 DNN 模型轉換為 INT8 精度。

在這篇文章中,我們討論了這些技術,介紹了用于 TensorFlow 的 NVIDIA QAT 工具包,并演示了一個端到端工作流,以設計最適合 TensorRT 部署的量化網絡

量化感知訓練

QAT 背后的主要思想是通過最小化訓練期間的量化誤差來模擬低精度行為。為此,可以通過在所需層周圍添加量化和去量化( QDQ )節點來修改 DNN 圖。這使得量化網絡能夠將由于模型量化和超參數的微調而導致的 PTQ 精度損失降至最低。

另一方面, PTQ 在模型已經訓練之后,使用校準數據集執行模型量化。由于量化沒有反映在訓練過程中,這可能導致精度下降。圖 1 顯示了這兩個過程。

pYYBAGKxiG-ATkKeAACqD-C1-UA461.png

圖 1 通過 PTQ 和 QAT 的量化工作流

用于 TensorFlow 的 NVIDIA QAT 工具包

該工具包的目標是使您能夠以最適合于 TensorRT 部署的方式輕松量化網絡。

目前, TensorFlow 在其開源軟件 模型優化工具包 中提供非對稱量化。他們的量化方法包括在所需層的輸出和權重(如果適用)處插入 QDQ 節點,并提供完整模型或部分層類類型的量化。這是為 TFLite 部署而優化的,而不是 TensorRT 部署。

需要此工具包來獲得一個量化模型,該模型非常適合 TensorRT 部署。 TensorRT optimizer 傳播 Q 和 DQ 節點,并通過網絡上的浮點操作將它們融合在一起,以最大化 INT8 中可以處理的圖形比例。這將導致 NVIDIA GPU 上的最佳模型加速。我們的量化方法包括在所需層的輸入和權重(如果適用)處插入 QDQ 節點。

我們還執行對稱量化( TensorRT 使用),并通過層名稱和 基于模式的層量化 的部分量化提供擴展量化支持。

表 1 總結了 TFMOT 和用于 TensorFlow 的 NVIDIA QAT 工具包之間的差異。

圖2顯示了一個簡單模型的前/后示例,用 Netron 可視化。QDQ節點放置在所需層的輸入和權重(如適用)中,即卷積(Conv)和完全連接(MatMul)。

圖 2 量化前后的模型示例(分別為基線和 QAT 模型)

TensorRT 中部署 QAT 模型的工作流

圖 3 顯示了在 TensorRT 中部署 QAT 模型的完整工作流,該模型是通過 QAT 工具包獲得的。

圖 3 TensorRT 使用 QAT 工具包獲得的 QAT 模型的部署工作流

假設預訓練的 TensorFlow 2 模型為 SavedModel 格式,也稱為基線模型。

使用quantize_model功能對該模型進行量化,該功能使用 QDQ 節點克隆并包裝每個所需的層。

微調獲得的量化模型,在訓練期間模擬量化,并將其保存為SavedModel格式。

將其轉換為 ONNX 。

然后, TensorRT 使用 ONNX 圖來執行層融合和其他圖優化,如 專用 QDQ 優化 ,并生成一個用于更快推理的引擎。

ResNet-50v1 示例

在本例中,我們將向您展示如何使用 TensorFlow 2 工具包量化和微調 QAT 模型,以及如何在 TensorRT 中部署該量化模型。有關更多信息,請參閱完整的 example_resnet50v1.ipynb Jupyter 筆記本。

要求

要跟進,您需要以下資源:

Python 3.8

TensorFlow 2.8

NVIDIA TF-QAT 工具包

TensorRT 8.4

準備數據

對于本例,使用 ImageNet 2012 數據集 進行圖像分類(任務 1 ),由于訪問協議的條款,需要手動下載。 QAT 模型微調需要此數據集,它還用于評估基線和 QAT 模型。

登錄或注冊鏈接網站,下載列車/驗證數據。您應該至少有 155 GB 的可用空間。

工作流支持 TFRecord 格式,因此請使用以下說明(從 TensorFlow 說明 ) 轉換下載的。將 ImageNet 文件轉換為所需格式:

set IMAGENET_HOME=/path/to/imagenet/tar/files in data/imagenet_data_setup.sh 。

將 imagenet_to_gcs.py 下載到$IMAGENET_HOME。

Run 。/data/imagenet_data_setup.sh.

您現在應該可以在$IMAGENET_HOME中看到兼容的數據集。

量化和微調模型

from tensorflow_quantization import quantize_model
from tensorflow_quantization.custom_qdq_cases import ResNetV1QDQCase # Create baseline model
model = tf.keras.applications.ResNet50(weights="imagenet", classifier_activation="softmax") # Quantize model
q_model = quantize_model(model, custom_qdq_cases=[ResNetV1QDQCase()]) # Fine-tune
q_model.compile( optimizer="sgd", loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=["accuracy"]
)
q_model.fit( train_batches, validation_data=val_batches, batch_size=64, steps_per_epoch=500, epochs=2
) # Save as TF 2 SavedModel
q_model.save(“saved_model_qat”)

將 SavedModel 轉換為 ONNX

$ python -m tf2onnx.convert --saved-model= --output= --opset 13

部署 TensorRT 發動機

將 ONNX 模型轉換為 TensorRT 引擎(還可以獲得延遲測量):

$ trtexec --onnx= --int8 --saveEngine= -v

獲取驗證數據集的準確性結果:

$ python infer_engine.py --engine= --data_dir= -b=

后果

在本節中,我們報告了 ResNet 和 EfficientNet 系列中各種型號的準確性和延遲性能數字:

ResNet-50v1

ResNet-50v2

ResNet-101v1

ResNet-101v2

效率網 -B0

效率網 -B3

所有結果都是在 NVIDIA A100 GPU 上獲得的,批次大小為 1 ,使用 TensorRT 8.4 ( EA 用于 ResNet , GA 用于 EfficientNet )。

圖 4 顯示了基線 FP32 模型與其量化等效模型( PTQ 和 QAT )之間的精度比較。正如您所見,基線模型和 QAT 模型之間的準確性幾乎沒有損失。有時,由于模型的進一步整體微調,精度甚至更高。由于 QAT 中模型參數的微調, QAT 的精度總體上高于 PTQ 。

圖 4 FP32 (基線)、帶 PTQ 的 INT8 和帶 QAT 的 INT8 中 ResNet 和 EfficientNet 數據集的準確性

ResNet 作為一種網絡結構,一般量化穩定,因此 PTQ 和 QAT 之間的差距很小。然而, EfficientNet 從 QAT 中獲益匪淺,與 PTQ 相比,基線模型的準確度損失有所減少。

有關不同模型如何從 QAT 中受益的更多信息,請參見 深度學習推理的整數量化:原理與實證評價 (量化白皮書)中的表 7 。

圖 5 顯示了 PTQ 和 QAT 具有相似的時間,與各自的基線模型相比,它們引入了高達 19 倍的加速。

圖 5 ResNet 和 EfficientNet 系列中各種模型的延遲性能評估

PTQ 有時可能比 QAT 略快,因為它試圖量化模型中的所有層,這通常會導致更快的推斷,而 QAT 僅量化用 QDQ 節點包裹的層。

有關 TensorRT 如何使用 QDQ 節點的更多信息,請參閱 TensorRT 文檔中的 使用 INT8 和 走向 INT8 推理:使用 TensorRT 部署量化感知訓練網絡的端到端工作流 GTC 會話。

有關各種受支持型號的性能數字的更多信息,請參閱 model zoo 。

結論

在本文中,我們介紹了 TensorFlow 2 的 NVIDIA QAT 工具包 。 我們討論了在 TensorRT 推理加速環境中使用該工具包的優勢。然后,我們演示了如何將該工具包與 ResNet50 結合使用,并對 ResNet 和 EfficientNet 數據集執行準確性和延遲評估。

實驗結果表明,與 FP32 模型相比,用 QAT 訓練的 INT8 模型的精度相差約 1% ,實現了 19 倍的延遲加速。

關于作者

Gwena Cunha Sergio 在 NVIDIA 擔任深度學習軟件工程師。在此之前,她是韓國京浦國立大學的一名博士生,致力于研究基于深度學習的方法,用于嘈雜的自然語言處理任務和從多模態數據生成序列。

Sagar Shelke 是 NVIDIA 的深度學習軟件工程師,專注于自主駕駛應用程序。他的興趣包括用于部署和機器學習系統的神經網絡優化。薩加爾擁有圣地亞哥州立大學電氣和計算機工程碩士學位。

Dheeraj Peri 在 NVIDIA 擔任深度學習軟件工程師。在此之前,他是紐約羅切斯特理工學院的研究生,致力于基于深度學習的內容檢索和手寫識別方法。 Dheeraj 的研究興趣包括信息檢索、圖像生成和對抗性機器學習。他獲得了印度皮拉尼 Birla 理工學院的學士學位。

Josh Park 是 NVIDIA 的汽車解決方案架構師經理。到目前為止,他一直在研究使用 DL 框架的深度學習解決方案,例如在 multi-GPUs /多節點服務器和嵌入式系統上的 TensorFlow 。此外,他一直在評估和改進各種 GPUs + x86 _ 64 / aarch64 的訓練和推理性能。他在韓國大學獲得理學學士和碩士學位,并在德克薩斯農工大學獲得計算機科學博士學位

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101032
  • NVIDIA
    +關注

    關注

    14

    文章

    5072

    瀏覽量

    103520
收藏 人收藏

    評論

    相關推薦

    Labview聲音和振動工具包示例文件Sound Level

    Labview 聲音和振動工具包示例文件,聲壓測試,有模擬和DAQ兩個文件。
    發表于 01-05 09:15 ?0次下載

    最新Simplicity SDK軟件開發工具包發布

    最新的SimplicitySDK軟件開發工具包已經發布!此次更新針對SiliconLabs(芯科科技)第二代無線開發平臺帶來了包括藍牙6.0的信道探測(Channel Sounding
    的頭像 發表于 12-24 09:47 ?249次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?247次閱讀

    NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布!
    的頭像 發表于 11-28 10:43 ?326次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現已在GitHub上公開發布

    基于EasyGo Vs工具包和Nl veristand軟件進行的永磁同步電機實時仿真

    EasyGo Vs Addon是一款領先的FPGA仿真工具包軟件,它強大地連接了VeriStand軟件與Matlab/Simulink,為實時測試和驗證領域帶來了前所未有的便利和效率,特別適用于汽車
    的頭像 發表于 11-27 11:28 ?369次閱讀
    基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand軟件進行的永磁同步電機實時仿真

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA
    的頭像 發表于 11-19 14:29 ?386次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優化

    FPGA仿真工具包軟件EasyGo Vs Addon介紹

    EasyGo Vs Addon是一款領先的FPGA仿真工具包軟件,它強大地連接了VeriStand軟件與Matlab/Simulink,為實時測試和驗證領域帶來了前所未有的便利和效率,特別適用于汽車、航空航天和能源電力等實時測試和驗證至關重要的行業。
    的頭像 發表于 10-24 15:55 ?475次閱讀
    FPGA仿真<b class='flag-5'>工具包</b>軟件EasyGo Vs Addon介紹

    采用德州儀器 (TI) 工具包進行模擬前端設計應用說明

    電子發燒友網站提供《采用德州儀器 (TI) 工具包進行模擬前端設計應用說明.pdf》資料免費下載
    發表于 09-09 11:21 ?0次下載
    采用德州儀器 (TI) <b class='flag-5'>工具包</b>進行模擬前端設計應用說明

    英國公司實現英偉達CUDA軟件在AMD GPU上的無縫運行

    7月18日最新資訊,英國創新科技企業Spectral Compute震撼發布了其革命性GPGPU編程工具包——“SCALE”,該工具包實現了英偉達CUDA軟件在AMD GPU上的無縫遷移與運行,標志著在GPU計算領域,
    的頭像 發表于 07-18 14:40 ?691次閱讀

    使用freeRTOS開發工具包時,在哪里可以找到freeRTOS的版本?

    作為主題,當我使用 freeRTOS 開發工具包時,在哪里可以找到 freeRTOS 的版本?
    發表于 07-09 07:17

    MediaTek與NVIDIA TAO加速物聯網邊緣AI應用發展

    在即將到來的COMPUTEX 2024科技盛會上,全球知名的芯片制造商MediaTek宣布了一項重要合作——將NVIDIA的TAO(TensorRT Accelerated Optimizer)與其NeuroPilot SDK(軟件開發
    的頭像 發表于 06-12 14:49 ?501次閱讀

    存內計算技術工具鏈——量化

    本篇文章將重點講述存內計算技術工具鏈之“量化”,我們將從面向存內計算芯片的深度學習編譯工具鏈、神經網絡中的量化(包括訓練后
    的頭像 發表于 05-16 12:35 ?1337次閱讀
    存內計算技術<b class='flag-5'>工具</b>鏈——<b class='flag-5'>量化</b>篇

    Edge Impulse發布新工具,助 NVIDIA 模型大規模部署

    借助 Edge Impulse 和 NVIDIA TAO 工具包的協同效應,工程師得以快速構建并部署至邊緣優化硬件(如上述型號)的計算機視覺模型。該平臺還支持用戶運用經由 GPU 優化的 NVIDIA TAO 模型(如 YOLO
    的頭像 發表于 03-25 16:00 ?788次閱讀

    QE for Motor V1.3.0:汽車開發輔助工具解決方案工具包

    電子發燒友網站提供《QE for Motor V1.3.0:汽車開發輔助工具解決方案工具包.pdf》資料免費下載
    發表于 02-19 10:44 ?0次下載
    QE for Motor V1.3.0:汽車開發輔助<b class='flag-5'>工具</b>解決方案<b class='flag-5'>工具包</b>

    求助,請問有沒有labview opc ua工具包 2018 啊

    如題,求助,請問有沒有labview opc ua工具包 2018 啊。只要2018的哦
    發表于 01-25 20:14
    主站蜘蛛池模板: 韩国女主播内部vip自带氏巾| 在线成 人av影院| 国产欧美国日产在线播放| 在线观看视频一区| 涩涩在线观看免费视频| 蜜柚影院在线观看免费高清中文 | qvod激情图片| 亚洲精品卡2卡3卡4卡5卡区 | 精品一区二区三区四区五区六区| 白丝萝莉喷水| 4480YY无码午夜私人影院| 亚洲黄色高清| 少女开女包www| 啪啪做羞羞事小黄文| 啦啦啦 中国 日本 高清 在线| 护士WC女子撒尿| 伊人久久综合成人亚洲| 甜性涩爱免费下载| 欧美中文字幕一区二区三区| 久久久久999| 国产亚洲美女精品久久久2020| 波多野结衣网站www| 97在线超碰免费视频| 在线高清电影理论片4399| 亚洲电影不卡| 午夜不卡av免费| 牲高潮99爽久久久久777| 欧美又粗又长又大AAAA片| 免费A级毛片无码无遮挡| 久久亚洲网站| 久久99免费视频| 精品 在线 视频 亚洲| 国产午夜永久福利视频在线观看| 光棍天堂在线a| 干丝袜美女| 丰满少妇发泄14p| 丁香成人网址| 囯产精品久久久久久久久免费蜜桃| YELLOW高清在线观看2019| qvod 韩国| 超碰最新网站|