亚洲欧美成人日韩,一级爱做片免费观看久久,亚洲视频综合网

簡(jiǎn)介

? 本案例中通過NVIDIA T4 GPU，TensorRT和Triton，幫助微信OCR降低整體耗時(shí)46%，并將系統(tǒng)的失敗率降低81%，同時(shí)降低了高達(dá)78%的服務(wù)器數(shù)量。

? 本案例主要應(yīng)用到 NVIDIA GPU ，TensorRT和Triton。

客戶簡(jiǎn)介

騰訊微信是一款跨平臺(tái)的通訊工具。支持通過手機(jī)網(wǎng)絡(luò)發(fā)送語音、圖片、視頻和文字等。截至2021年6月，微信在全球擁有超過12億活躍用戶，是國內(nèi)活躍用戶最多的社交軟件。

微信識(shí)物是一款主打物品識(shí)別的 AI 產(chǎn)品，通過相機(jī)拍攝物品，更高效、更智能地獲取信息。2020 年，微信識(shí)物拓展了更多識(shí)別場(chǎng)景，上線了微信版的圖片搜索。打開微信掃一掃，左滑切換到“識(shí)物”功能，對(duì)準(zhǔn)想要了解的物品正面，可以獲取對(duì)應(yīng)的物品信息，包括物品百科、相關(guān)資訊、相關(guān)商品。

2021年1月，微信發(fā)布的微信8.0，版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長(zhǎng)按圖片就可以提取圖片中文字，然后一鍵轉(zhuǎn)發(fā)、復(fù)制或收藏。

挑戰(zhàn)

微信識(shí)物包含檢測(cè)、圖像召回、信息提煉等環(huán)節(jié)，OCR主要包括識(shí)別和檢測(cè)，這兩種應(yīng)用都有非常大的計(jì)算量，在用Pytorch進(jìn)行模型的推理時(shí)，一方面時(shí)延特別大，導(dǎo)致用戶體驗(yàn)受損；另一方面，顯存占用很大，單張NVIDIA T4上部署的模型數(shù)比較少，導(dǎo)致推理請(qǐng)求的并發(fā)數(shù)上不去，請(qǐng)求失敗的概率太高，只能通過增加機(jī)器的方式來提高并發(fā)能力，業(yè)務(wù)部署成本較高。再次，使用的模型經(jīng)常變化，而業(yè)務(wù)需要更換后的模型能夠快速地加速和上線部署。

方案

基于以上挑戰(zhàn)，騰訊微信選擇了采用NVIDIA 的TensorRT對(duì)模型進(jìn)行推理加速，并利用NVIDIA Triton推理服務(wù)器在T4 GPU上進(jìn)行在線部署，在提升用戶體驗(yàn)的同時(shí)，大幅降低了服務(wù)成本。

1、通過使用TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速，在都使用FP32的情況下，與Pytorch相對(duì)，時(shí)延降低50%左右。

2、在OCR的識(shí)別和檢測(cè)階段，使用TensorRT結(jié)合NVIDIA T4 GPU 的FP16 Tensor Core，在保證精度的同時(shí)，識(shí)別的時(shí)延進(jìn)一步降低了50%，檢測(cè)降低了20%。

3、在微信識(shí)物的分類和檢測(cè)任務(wù)中，通過使用NVIDIA T4 GPU 的int8 Tensor Core，并結(jié)合QAT，在滿足精度要求的前提下，進(jìn)一步大幅提升了性能。

4、通過使用FP16和int8 低精度模式，在大幅降低推理時(shí)延的同時(shí)，大大減少了顯存的占用，在FP16模式下，單模型顯存占用僅占FP32模式的40%–50%，而在int8模式下，單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數(shù)量的同時(shí)，大幅提高了單GPU的推理請(qǐng)求并發(fā)能力。

5、 Triton的dynamic batch和多實(shí)例等特性，幫助微信將在滿足時(shí)延要求的同時(shí)，提高了系統(tǒng)整體的并發(fā)能力，將系統(tǒng)失敗降低了81%。

6、 TensorRT可以對(duì)模型進(jìn)行快速的加速，Triton則可以對(duì)加速后的模型進(jìn)行快速的部署，滿足了業(yè)務(wù)對(duì)修改后的模型進(jìn)行快速部署的需求，同時(shí)也大大減少了工程人員的工作量。

效果

通過使用NVIDIA的TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速，在降低單次推理時(shí)延50%以上的同時(shí)，節(jié)約了多達(dá)64%的顯存。結(jié)合Triton的dynamic batch和多實(shí)例的功能，OCR的整體時(shí)延降低了46%，系統(tǒng)失敗率降低了81%。大大提高了用戶的體驗(yàn)，并且服務(wù)器的數(shù)量減少了多達(dá)78%，極大降低了服務(wù)的成本。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5075

瀏覽量
103554
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4768

瀏覽量
129238
服務(wù)器

服務(wù)器

+關(guān)注

關(guān)注
12

文章
9295

瀏覽量
85897

評(píng)論

相關(guān)推薦

租用站群服務(wù)器時(shí)如何降低成本?

在租用站群服務(wù)器時(shí)，降低成本是許多站群管理者關(guān)注的重要問題。主機(jī)推薦小編為您整理發(fā)布租用站群服務(wù)器時(shí)如何降低成本，以下是一些實(shí)用的策略和建議，有助于在保持性能的同時(shí)降低租用成本。

發(fā)表于 01-22 10:45 ?68次閱讀

NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

、NVIDIA Triton，Pantheon Lab 訓(xùn)練速度提高 10 倍、推理延遲降低 50%，以及用戶參與度提升 30%。這些進(jìn)步使對(duì)話式 AI 能夠提供實(shí)時(shí)且真實(shí)的互動(dòng)，使 Pantheon Lab 在數(shù)字人技術(shù)不斷革新。

發(fā)表于 01-14 11:19 ?242次閱讀

Triton編譯器與GPU編程的結(jié)合應(yīng)用

Triton編譯器簡(jiǎn)介 Triton編譯器是一種針對(duì)并行計(jì)算優(yōu)化的編譯器，它能夠自動(dòng)將高級(jí)語言代碼轉(zhuǎn)換為針對(duì)特定硬件優(yōu)化的低級(jí)代碼。Triton編譯器的核心優(yōu)勢(shì)在于其能夠識(shí)別并行模式，自動(dòng)進(jìn)行代碼

發(fā)表于 12-25 09:13 ?299次閱讀

Triton編譯器如何提升編程效率

在現(xiàn)代軟件開發(fā)中，編譯器扮演著至關(guān)重要的角色。它們不僅將高級(jí)語言代碼轉(zhuǎn)換為機(jī)器可執(zhí)行的代碼，還通過各種優(yōu)化技術(shù)提升程序的性能。Triton 編譯器作為一種先進(jìn)的編譯器，通過多種方式提升編程效率，使得

發(fā)表于 12-25 09:12 ?302次閱讀

Triton編譯器的優(yōu)化技巧

在現(xiàn)代計(jì)算環(huán)境中，編譯器的性能對(duì)于軟件的運(yùn)行效率至關(guān)重要。Triton 編譯器作為一個(gè)先進(jìn)的編譯器框架，提供了一系列的優(yōu)化技術(shù)，以確保生成的代碼既高效又適應(yīng)不同的硬件架構(gòu)。 1. 指令選擇

發(fā)表于 12-25 09:09 ?321次閱讀

Triton編譯器的優(yōu)勢(shì)與劣勢(shì)分析

Triton編譯器作為一種新興的深度學(xué)習(xí)編譯器，具有一系列顯著的優(yōu)勢(shì)，同時(shí)也存在一些潛在的劣勢(shì)。以下是對(duì)Triton編譯器優(yōu)勢(shì)與劣勢(shì)的分析：優(yōu)勢(shì) 高效性能優(yōu)化： Triton編譯器通過塊級(jí)數(shù)

發(fā)表于 12-25 09:07 ?343次閱讀

Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用

1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務(wù)平臺(tái)的一部分，它負(fù)責(zé)將深度學(xué)習(xí)模型轉(zhuǎn)換為優(yōu)化的格式，以便在NVIDIA GPU上高效運(yùn)行。Triton

發(fā)表于 12-24 18:13 ?492次閱讀

Triton編譯器的常見問題解決方案

Triton編譯器作為一款專注于深度學(xué)習(xí)的高性能GPU編程工具，在使用過程中可能會(huì)遇到一些常見問題。以下是一些常見問題的解決方案：一、安裝與依賴問題檢查Python版本 Triton編譯器通常

發(fā)表于 12-24 18:04 ?675次閱讀

Triton編譯器支持的編程語言

Triton編譯器支持的編程語言主要包括以下幾種：一、主要編程語言 Python ：Triton編譯器通過Python接口提供了對(duì)Triton語言和編譯器的訪問，使得用戶可以在Python環(huán)境中

發(fā)表于 12-24 17:33 ?431次閱讀

Triton編譯器與其他編譯器的比較

Triton編譯器與其他編譯器的比較主要體現(xiàn)在以下幾個(gè)方面：一、定位與目標(biāo) Triton編譯器：定位：專注于深度學(xué)習(xí)中最核心、最耗時(shí)的張量運(yùn)算的優(yōu)化。目標(biāo)：提供一個(gè)高度抽象、靈活、高效

發(fā)表于 12-24 17:25 ?455次閱讀

Triton編譯器功能介紹 Triton編譯器使用教程

Triton 是一個(gè)開源的編譯器前端，它支持多種編程語言，包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯器框架，允許開發(fā)者添加新的編程語言特性和優(yōu)化技術(shù)

發(fā)表于 12-24 17:23 ?571次閱讀

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model

發(fā)表于 11-19 14:29 ?402次閱讀

降低成本城域網(wǎng)

電子發(fā)燒友網(wǎng)站提供《降低成本城域網(wǎng).pdf》資料免費(fèi)下載

發(fā)表于 10-12 11:46 ?0次下載

能源管理系統(tǒng)如何降低運(yùn)維成本？

智能運(yùn)維管理系統(tǒng)、電能集抄系統(tǒng)、移動(dòng)端app的應(yīng)用，有效降低了人工成本和運(yùn)維成本，優(yōu)化了運(yùn)行策略，實(shí)現(xiàn)了設(shè)備的使用壽命延長(zhǎng)，降低了運(yùn)維成本。

發(fā)表于 04-16 14:45 ?589次閱讀

在AMD GPU上如何安裝和配置triton？

最近在整理python-based的benchmark代碼，反過來在NV的GPU上又把Triton裝了一遍，發(fā)現(xiàn)Triton的github repo已經(jīng)給出了對(duì)應(yīng)的llvm的commit id以及對(duì)應(yīng)的編譯細(xì)節(jié)，然后跟著走了一遍，也順利的安裝成功，只需要按照如下方式即可完

發(fā)表于 02-22 17:04 ?2522次閱讀