色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Yolo系列模型的部署、精度對齊與int8量化加速

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-11-23 16:40 ? 次閱讀

Yolo系列模型的部署、精度對齊與int8量化加速

大家好,我是海濱。寫這篇文章的目的是為宣傳我在23年初到現在完成的一項工作---Yolo系列模型在TensorRT上的部署與量化加速,目前以通過視頻的形式在B站發(fā)布(不收費,只圖一個一劍三連)。

麻雀雖小但五臟俱全,本項目系統(tǒng)介紹了YOLO系列模型在TensorRT上的量化方案,工程型較強,我們給出的工具可以實現不同量化方案在Yolo系列模型的量化部署,無論是工程實踐還是學術實驗,相信都會對你帶來一定的幫助。

B站地址(求關注和三連):https://www.bilibili.com/video/BV1Ds4y1k7yr/

Github開源地址(求star):https://github.com/thb1314/mmyolo_tensorrt/

當時想做這個的目的是是為了總結一下目標檢測模型的量化加速到底會遇到什么坑,只是沒想到不量化坑都會很多。

比如即使是以FP32形式推理,由于TensorRT算子參數的一些限制和TRT和torch內部實現的不同,導致torch推理結果會和TensorRT推理結果天然的不統(tǒng)一,至于為什么不統(tǒng)一這里賣個關子大家感興趣可以看下視頻。

下面說一下我們這個項目做了哪些事情

YOLO系列模型在tensorrt上的部署與精度對齊

該項目詳細介紹了Yolo系列模型在TensorRT上的FP32的精度部署,基于mmyolo框架導出各種yolo模型的onnx,在coco val數據集上對齊torch版本與TensorRT版本的精度。

在此過程中我們發(fā)現,由于TopK算子限制和NMS算子實現上的不同,我們無法完全對齊torch和yolo模型的精度,不過這種風險是可解釋且可控的。

詳解TensorRT量化的三種實現方式

TensorRT量化的三種實現方式包括trt7自帶量化、dynamic range api,trt8引入的QDQ算子。

Dynamic range api會在采用基于MQbench框架做PTQ時講解。

TensorRT引入的QDQ算子方式在針對Yolo模型的PTQ和QAT方式時都有詳細的闡述,當然這個過程也沒有那么順利。

在基于PytorchQuantization導出的含有QDQ節(jié)點的onnx時,我們發(fā)現盡管量化版本的torch模型精度很高,但是在TensorRT部署時精度卻很低,TRT部署收精度損失很嚴重,通過可視化其他量化形式的engine和問題engine進行對比,我們發(fā)現是一些層的int8量化會出問題,由此找出問題量化節(jié)點解決。

詳解MQbench量化工具包在TensorRT上的應用

我們研究了基于MQbench框架的普通PTQ算法和包括Adaround高階PTQ算法,且啟發(fā)于Adaround高階PTQ算法。

我們將torch版本中的HistogramObserver引入到MQBench中,activation采用HistogramObserverweight采用MinMaxObserver,在PTQ過程中,weight的校準前向傳播一次,activation的校準需要多次因此我們將weight的PTQ過程和activation的PTQ過程分開進行,加速PTQ量化。實踐證明,我們采用上述配置的分離PTQ量化在yolov8上可以取得基本不掉點的int8量化精度。

針對YoloV6這種難量化模型,分別采用部分量化和QAT來彌補量化精度損失

在部分量化階段,我們采用量化敏感層分析技術來判斷哪些層最需要恢復原始精度,給出各種metric的量化敏感層實現。

在QAT階段,不同于原始Yolov6論文中蒸餾+RepOPT的方式,我們直接采用上述部分量化后的模型做出初始模型進行finetune,結果發(fā)現finetune后的模型依然取得不錯效果。

針對旋轉目標檢測,我們同樣給出一種端到端方案,最后的輸出就是NMS后的結果。通過將TensorRT中的EfficientNMS Plugin和mmcv中旋轉框iou計算的cuda實現相結合,給出EfficientNMS for rotated box版本,經過簡單驗證我們的TRT版本與Torch版本模型輸出基本對齊。

以上就是我們這個項目做的事情,歡迎各位看官關注b站和一劍三連。同時,如果各位有更好的想法也歡迎給我們的git倉庫提PR。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4629

    瀏覽量

    93193
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49074
  • 精度
    +關注

    關注

    0

    文章

    261

    瀏覽量

    20077

原文標題:Yolo系列模型的部署、精度對齊與int8量化加速

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    4/int8/fp16/混合精度)、內存大小等參數,對于手上的板子有一個全面的了解。在進行部署時,我們常常將訓練的模型轉化成onnx中間文件,再根據硬件設備要求的轉化成硬件要求的
    發(fā)表于 12-19 14:33

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮
    的頭像 發(fā)表于 12-17 17:47 ?251次閱讀

    使用英特爾AI PC為YOLO模型訓練加速

    在以往的實踐中,當我們針對 ultralytics 的 YOLO 模型開展訓練工作時,可供選擇的計算設備通常局限于 CPU、mps 以及 cuda 這幾種。然而,自 PyTorch2.5 版本發(fā)布
    的頭像 發(fā)表于 12-09 16:14 ?452次閱讀
    使用英特爾AI PC為<b class='flag-5'>YOLO</b><b class='flag-5'>模型</b>訓練<b class='flag-5'>加速</b>

    AI模型部署邊緣設備的奇妙之旅:如何實現手寫數字識別

    準備工作 在進行模型部署之前,我們首先需要確認自己手上的模塊的支持哪些算子、支持什么類型的量化int4/int8/fp16/混合
    發(fā)表于 12-06 17:20

    助力AIoT應用:在米爾FPGA開發(fā)板上實現Tiny YOLO V4

    為定點精度(例如 INT8),而非浮點數。這在維持準確度的同時顯著降低計算量,尤其適合 FPGA 的固定點運算支持。 Tiny YOLO 模型在 Vivado HLS 中的層層轉化
    發(fā)表于 12-06 17:18

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8INT8。首先介紹性能,包括速度和精度。其次,介
    的頭像 發(fā)表于 11-19 14:29 ?391次閱讀
    TensorRT-LLM低<b class='flag-5'>精度</b>推理優(yōu)化

    OrangePi KunPeng Pro部署AI模型介紹

    OrangePi Kunpeng Pro是一款香橙派聯合華為精心打造的高性能板卡,搭載了鯤鵬處理器,可提供8TOPS INT8計算能力,板卡設計很精致,板載資源也非常多:
    的頭像 發(fā)表于 11-16 11:03 ?425次閱讀
    OrangePi KunPeng Pro<b class='flag-5'>部署</b>AI<b class='flag-5'>模型</b>介紹

    理解LLM中的模型量化

    在本文中,我們將探討一種廣泛采用的技術,用于減小大型語言模型(LLM)的大小和計算需求,以便將這些模型部署到邊緣設備上。這項技術稱為模型量化
    的頭像 發(fā)表于 10-25 11:26 ?286次閱讀
    理解LLM中的<b class='flag-5'>模型</b><b class='flag-5'>量化</b>

    【飛凌嵌入式OK3576-C開發(fā)板體驗】rkllm模型量化構建

    ;目前 rk3576 平臺支持“w4a16”和“w8a8”兩種量化類型,rk3588 僅支持“w8a8量化類型; target_platform:
    發(fā)表于 08-27 22:50

    源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

    2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原
    的頭像 發(fā)表于 08-25 22:06 ?349次閱讀
    源2.0-M32大<b class='flag-5'>模型</b>發(fā)布<b class='flag-5'>量化</b>版 運行顯存僅需23GB 性能可媲美LLaMA3

    深度神經網絡模型量化的基本方法

    深度神經網絡模型量化是深度學習領域中的一種重要優(yōu)化技術,旨在通過減少模型參數的精度(即從高精度浮點數如32位浮點數FP32降低到低
    的頭像 發(fā)表于 07-15 11:26 ?743次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型量化技術,旨在通過減少網絡參數的比特寬度來減小模型大小和加速
    的頭像 發(fā)表于 07-15 11:01 ?539次閱讀
    深度學習<b class='flag-5'>模型</b><b class='flag-5'>量化</b>方法

    【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互:2,圖像識別

    BModel混合精度量化 ├── yolov8s_qtable_fp32 # TPU-MLIR編譯時,用于BM1684的INT8 BModel混合精度量化
    發(fā)表于 07-14 23:36

    esp-dl int8量化模型數據集評估精度下降的疑問求解?

    一 試著將模型進行了esp-dl上int16和int8量化,并在測試數據集上進行精度評估,其中int
    發(fā)表于 06-28 15:10

    使用esp-dl中的example量化我的YOLO模型時,提示ValueError: current model is not supported by esp-dl錯誤,為什么?

    使用esp-dl中的example量化我的YOLO模型時,提示:ValueError: current model is not supported by esp-dl 錯誤, 請看我的代碼和
    發(fā)表于 06-28 06:47
    主站蜘蛛池模板: 狠狠色狠狠色综合日日92 | GOGOGO高清在线播放韩国 | 国产精品视频yy9099 | 俄罗斯美女z0z0z0在线 | 亚洲精品国产A久久久久久 亚洲精品国产AV成人毛片 | 无码精品AV久久久奶水 | 国产精品永久在线 | 男的插曲女的下面免费APP | 亚洲免费网站在线观看 | 波多野结衣教师系列6 | 亚州AV人片一区二区三区99久 | 国产精品成人免费 | 亚洲精品一区二区在线看片 | 久久九九青青国产精品 | 精品伊人久久久 | 好满射太多了装不下了视频 | 欧美人与动牲交A精品 | 韩国hd高清xxx | 国产免费人成在线看视频 | 午夜色情影院色a国产 | 99精品视频一区在线视频免费观看 | 动漫在线观看免费肉肉 | 亚洲国产三级在线观看 | 中文国产成人精品久久免费 | adc高清在线观看 | 四虎影院网红美女 | 成人国产在线视频 | 亚洲激情一区 | 欧美乱码卡一卡二卡四卡免费 | 亚洲色噜噜狠狠站欲八 | 国产成人刺激视频在线观看 | 国产传媒精品1区2区3区 | 日本一本免费线观看视频 | 日韩伦理电影秋霞影院 | 亚洲天堂av2017 | 中文字幕午夜福利片 | qq快播电影网| 久久精品99国产精品日本 | 国产精品99久久久久久AV色戒 | 亚洲欧美日韩高清专区 | 日韩一区二区三区免费体验 |