香蕉久热,一二三四社区在线视频观看,小舞丝袜调教喷水沦为肉奴

騰訊公司深耕模型量化開發，且長期與 NVIDIA 團隊合作，成功將深度學習模型精度從 FP32 壓縮到 FP16 以及 INT8。現在，該技術再次獲得了新的重要突破。騰訊團隊利用全新設計的 QAT 訓練算法 Auto48，以及 INT4 推理能力，實現業界首次無損 INT4 在 NLP 領域落地使用的技術突破。服務上線后，不僅極大提升了微信中的搜索能力，在之前的基礎上更進一步為公司節省了約 30% 的計算資源，其中 NVIDIAT4、A10 GPU 及 TensorRT 即為本案例的應用核心。

騰訊微信是目前國內最大的社交平臺及通訊工具之一。隨著微信生態環境的優化，其功能也越來越豐富，搜索也成為其越來越重要的入口，這個入口可以用來搜索微信內部的功能、信息，以及搜索互聯網上的內容，目前微信搜一搜月活躍用戶已超過 7 億。而在搜索業務當中微信團隊使用了大量的神經網絡模型，包括自然語言理解、匹配排序等等，這些模型的訓練和推理也都大量依賴于 NVIDIA GPU，尤其在推理方面， NVIDIA GPU 及相應的解決方案皆滿足了業務所需的延遲和吞吐要求。

搜索業務由多個子模塊構成，包括查詢理解、匹配、搜索排序等等。由于搜索的業務特點，這些任務對線上服務的延遲和吞吐都十分敏感。而在最近幾年，隨著算力的提升以及算法的創新，眾多大型復雜的神經網絡模型也開始應用在這些任務上。一方面，現有的模型（例如 BERT/GPT）帶來的成本壓力顯著；另一方面，超大規模（十/百億參數）模型帶來的精度提升使得大模型應用需求持續升溫。因此，這些大模型需要的計算資源和業務上的高要求對推理端的軟硬件都是很大的挑戰，必須針對具體的硬件做極致的優化。現有的對于大模型的推理加速技術，比如模型壓縮、剪枝、低精度計算等等，都被證明能夠一定程度上實現性能加速、節約資源。然而，這些技術可能會帶來精度下降等負面影響，限制了這些技術的廣泛應用。因此，如何在保證精度效果以及服務吞吐延遲需求的情況下，高效地對這些模型進行推理成為了業務上的巨大挑戰。NVIDIA GPU 以及 TensorRT 給這一場景提供了解決方案。

為了滿足線上服務的需求，并且盡可能地節約成本，微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT+CUTLASS 實現來進行線上大模型的推理。

線上服務對于吞吐和延遲有很高的要求，微信搜一搜選擇使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎來做線上推理服務，利用 NVIDIA 基于 TensorRT 實現的 INT8 BERT，可以很方便地在 INT8 精度下實現滿足需求的線上推理功能。利用 TensorRT 提供的“校準”（Calibration）功能結合量化感知訓練（Quantization Aware Training, QAT），可以方便地將 Float 精度模型轉換為 INT8 低精度模型，實現低精度推理。通過低精度推理，模型的單次推理時間大大縮短 30%。這個方案在線上取得了很好的效果。

在此基礎上，微信搜一搜希望進一步加快推理速度，節約計算資源，以便更好地服務用戶，節約成本。更低的低精度推理成為了很好的選擇。NVIDIA GPU 從圖靈（Turing）架構開始就有了 INT4 Tensor Core，其計算吞吐量最高可達 FP16 精度的 4 倍。并且低精度推理可以同時使用其他技術比如剪枝、蒸餾等相結合做進一步提升。微信搜一搜線上大量使用 NVIDIA T4 GPU，非常適合應用 INT4 推理，且 CUTLASS 對 INT4 GEMM 也有良好的支持。

然而當進一步將數據類型從 INT8 降低到 INT4 的時候，如果使用相同的 QAT 算法時，模型的精度會發生顯著的下降（超過 2%）。因此，微信搜一搜設計了全新的訓練算法—— Auto48。Auto48 是一套全新的自動化模型量化工具，能夠幫助用戶自動生成自定義壓縮率下，性能最優的量化模型。在 QAT 算法的啟發下， Auto48 設計了全新的動態壓縮算法來極大地減小高壓縮率（INT4）帶來的壓縮誤差，并且結合了更有效的知識蒸餾相關技術，使得量化后的模型準確度得到了顯著的提高。進一步的， Auto48 還支持 INT8+INT4 混合精度的壓縮，這使得用戶可以自由的在壓縮率和精度之間做權衡，甚至實現無損壓縮。TensorRT 對于導入 QAT 訓練好的模型進行 INT8 低精度推理已經有了很好的支持。T4 GPU 在硬件上支持 INT4 Tensor Core，使用 CUTLASS 可以方便地構建出滿足多種需求的 INT4 GEMM 算子。這些算子不僅降低了推理時間，還保證了算子的功能的靈活性和擴展性。基于 Auto48 訓練的模型，不僅得到了最佳性能，而且精度沒有損失，線上服務只需做少許改動即可，極大地簡化了部署的流程。

通過這樣的方案，微信搜一搜中的一些關鍵任務，比如查詢理解等自然語言理解任務，可以在精度沒有損失的情況下，達到 1.4 倍的加速效果，平均單句推理時間達到了 0.022ms。任務相應的計算資源節省了約 30%。近期微信搜一搜在部分任務上線了 INT4 模型服務，該服務相較于之前的 INT8 模型服務有顯著的性能提升，在流量高峰時平均響應時間降低了 21%，超時率降低了 70%。這個方案大大優化了微信搜一搜業務的性能，降低了部署成本。

使用 NVIDIA T4 GPU 以及 TensorRT 推理引擎進行 INT4 低精度推理，極大提升了微信搜一搜相關任務的速度，進一步提升了用戶體驗，節約了公司成本。

INT4 與 INT8 服務請求耗時和失敗率對比

工程師朱健琛和李輝表示：“我們成功地實現了 INT4 的量化加速模型，并且在微信搜索核心任務（例如 query 理解和打分）上，顯著的提高了這些模型的推理速度。通過使用我們提出的 Auto48 算法，我們成功打破了 NLP 模型的復雜性帶來的限制。這種先進的優化手段可以極大地減少計算資源的需求。”

原文標題：NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處：【微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4990

瀏覽量
103104
gpu

gpu

+關注

關注
28

文章
4742

瀏覽量
128968
騰訊

騰訊

+關注

關注
7

文章
1656

瀏覽量
49453
微信

微信

+關注

關注
6

文章
511

瀏覽量
26582

原文標題：NVIDIA TensorRT 助力騰訊加速微信搜一搜

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術，該技術現在可與 NVIDIA TensorRT-LLM 一起使用。

發表于 12-25 17:31 ?136次閱讀

在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發揮出卓越的推理性能。

發表于 12-17 17:47 ?175次閱讀

《CST Studio Suite 2024 GPU加速計算指南》

的各個方面，包括硬件支持、操作系統支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關的使用指南和故障排除等內容。 1. 硬件支持 - NVIDIA

發表于 12-16 14:25

NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布！

發表于 11-28 10:43 ?279次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現已在GitHub上公開發布

TensorRT-LLM低精度推理優化

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA

發表于 11-19 14:29 ?310次閱讀

<b class='flag-5'>TensorRT</b>-LLM低精度推理優化

AMD與NVIDIA GPU優缺點

，NVIDIA的RTX系列顯卡以其強大的光線追蹤和DLSS技術領先于市場。例如，NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戲體驗，而AMD的Radeon RX 6800 XT雖然在某些游戲中表現接近，但在光線追蹤

發表于 10-27 11:15 ?730次閱讀

NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列，該系列包含最先進的指導和獎勵模型，以及一個用于生成式 AI

發表于 09-06 14:59 ?325次閱讀

<b class='flag-5'>NVIDIA</b> Nemotron-<b class='flag-5'>4</b> 340B模型幫助開發者生成合成訓練數據

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區是中國最具影響力的模型開源社區，致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應用部署，提高

發表于 08-23 15:48 ?455次閱讀

暴漲預警！NVIDIA GPU供應大跳水

gpu

jf_02331860

發布于 :2024年07月26日 09:41:42

超級猛獸 GPU ?NVIDIA GeForce RTX 5090 基本頻率接近 2.9 GHz

。JAEALOT2024年7月4日據傳，NVIDIA的GeForceRTX5090GPU的基本時鐘頻率接近3GHz，這比4090有大幅提升。NVIDIAGeForceRTX509

發表于 07-12 08:26 ?454次閱讀

超級猛獸 <b class='flag-5'>GPU</b> ?<b class='flag-5'>NVIDIA</b> GeForce RTX 5090 基本頻率接近 2.9 GHz

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

Blackwell GPU，標志著 AI 超級計算的一次重大進步。這種獨特的配置顯著減少傳統網絡擴展時的通信開銷，使得對 1.8T 參數的模型進行實時推理成為可能，同時將模型訓練速度提升4

發表于 05-13 17:16

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的

發表于 04-28 10:36 ?577次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

發表于 04-20 09:39 ?731次閱讀

超微gpu服務器評測

微GPU服務器進行評測。一、超微GPU服務器概述超微GPU服務器是一種基于超微服務器平臺與

發表于 01-10 10:37 ?1400次閱讀

Torch TensorRT是一個優化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我們大家聚在一起的原因，它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習推理軟件工具包。Torch Te

發表于 01-09 16:41 ?1756次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

NVIDIA T4 GPU和TensorRT提高微信搜索速度

評論