亚洲精品片,四虎高清成人永久免费影院,亚洲国产免费

騰訊一直積極地推動強化學習在游戲AI領域的發展，并在2019年推出了“開悟”AI開放研究平臺，提供不同游戲的訓練場景、支撐AI進行強化訓練的大規模算力、統一的強化學習框架以加速研發速度、通用的訓練與推理服務，加快AI訓練速度。

游戲AI對自對弈推理速度提出新要求

和圖像以及語音的訓練方式不同，目前在游戲AI訓練上表現最好的方式是強化學習。強化學習除了需要大量的算力來訓練深度學習網絡之外，還需要一個自對弈的模塊用來產生訓練數據。在自對弈模塊當中，會模擬游戲環境，并且選擇不同時期的模型來操控游戲內的角色，AI對游戲內角色的每一操控都需要對模型進行一次前向推理。由于更新模型的訓練數據來自于自對弈模塊，因此自對弈的推理速度會對整個模型的訓練速度和效果造成非常大的影響。

而自對弈推理每一次前向推理對延時的要求比實際的線上服務小，因此常見的方式是通過CPU來進行自對弈中的推理，但CPU成本太高。為了提高自對弈的速度與吞吐，減少推理成本，騰訊希望在“開悟”AI開放研究平臺里面充分利用GPU去進行自對弈中的模型前向推理。

TensorRT 助力“開悟”AI加速自對弈推理

為了解決在自對弈推理當中GPU利用率不高的問題，騰訊“開悟”AI開放研究平臺選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。

為了自動化地將模型從TensorFlow轉換到TensorRT，騰訊“開悟”AI開放研究平臺一開始通過自行開發parser，將TensorFlow的算子映射到TensorRT的算子。同時，為了支持更廣泛的模型與算子，減少維護和開發的成本，騰訊“開悟”AI開放研究平臺也積極地與NVIDIA合作，推動從TensorFlow轉換成ONNX模型，再通過TensorRT ONNX parser轉換到TensorRT的流程。

在自對弈的過程中，需要頻繁地更新模型的權重，讓自對弈模型始終能保持在較新的狀態。這個更新的頻率大概幾分鐘一次，每次必須限制在幾百個毫秒。如果通過重新build engine 的方式來更新模型的話，無法滿足上述要求。因此騰訊“開悟”AI開放研究平臺采用 TensorRT refit engine的功能來更新權重。同時，為了對更新權重有更好的支持、以及支持更多的算子，騰訊“開悟”AI開放研究平臺從原本的TensorRT 5 升級到TensorRT 7。

TensorRT 7雖然在部分算子上支持權重更新，但并不支持LSTM這個在游戲AI當中很重要的算子。為了解決這個問題，騰訊“開悟”AI開放研究平臺通過開發TensorRT插件的方式封裝LSTM算子，并在插件當中更新權重。

為了充分利用NVIDIA V100 GPU的Tensor core，騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便，整個推理流程很快被切換到FP16，并取得了2倍左右的加速。

尋找模型推理時的性能瓶頸，通過開發TensorRT插件進行算子融合，進一步地提升推理的速度。

在完成以上的工作之后，對比TensorFlow的基礎版本，TensorRT 7 能提供5倍以上的加速效果。

通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對弈訓練的推理部分，騰訊“開悟”AI開放研究平臺極大地提升了自對弈推理的吞吐量與速度，進一步地提升了整個模型訓練的速度與降低訓練成本，加快模型迭代的周期。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5075

瀏覽量
103539
gpu

gpu

+關注

關注
28

文章
4768

瀏覽量
129227
AI

AI

+關注

關注
87

文章
31490

瀏覽量
269911

原文標題：NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

生成式AI推理技術、市場與未來

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發布，預示著生成式AI研究正從預訓練轉向推理（Inference），以提升AI邏輯推理

發表于 01-20 11:16 ?302次閱讀

中國電提出大模型推理加速新范式Falcon

的 Falcon 方法是一種增強半自回歸投機解碼框架，旨在增強 draft model 的并行性和輸出質量，以有效提升大模型的推理速度。Falcon 可以實現約 2.91-3.51 倍的加速比，在多種數據集上獲得了很好的結果

發表于 01-15 13:49 ?109次閱讀

高效大模型的推理綜述

大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而，大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有的關于高效

發表于 11-15 11:45 ?535次閱讀

AI推理CPU當道，Arm驅動高效引擎

AI的訓練和推理共同鑄就了其無與倫比的處理能力。在AI訓練方面，GPU因其出色的并行計算能力贏得了業界的青睞，成為了當前AI大模型最熱門的芯片；而在

發表于 11-13 14:34 ?2589次閱讀

李開復:中國擅長打造經濟實惠的AI推理引擎

10月22日上午，零一萬物公司的創始人兼首席執行官李開復在與外媒的交流中透露，其公司旗下的Yi-Lightning（閃電模型）在推理成本上已實現了顯著優勢，比OpenAI的GPT-4o模型低了31倍。他強調，中國擅長打造經濟實惠的AI推

發表于 10-22 16:54 ?400次閱讀

蜂窩式移動通信設備CCC標準換版新要求

蜂窩式移動通信設備的CCC標準（即中國強制性產品認證標準）換版確實提出了新要求，主要涉及YD/T 2583.18-2024《蜂窩式移動通信設備電磁兼容性能要求和測量方法第18部分：5G用戶設備和輔助設備》（以下簡稱“新版標準”

發表于 10-19 10:02 ?373次閱讀

AMD助力HyperAccel開發全新AI推理服務器

HyperAccel 是一家成立于 2023 年 1 月的韓國初創企業，致力于開發 AI 推理專用型半導體器件和硬件，最大限度提升推理工作負載的存儲器帶寬使用，并通過將此解決方案應用于大型語言模型來

發表于 09-18 09:37 ?403次閱讀

如何基于OrangePi?AIpro開發AI推理應用

。通過昇騰CANN軟件棧的AI編程接口，可滿足大多數AI算法原型驗證、推理應用開發的需求。AscendCL（AscendComputingLanguage，昇騰計算

發表于 06-04 14:23 ?579次閱讀

開發者手機 AI - 目標識別 demo

識別demo: JS實現UI界面的功能； Native接口及實現主要為JS提供接口進行AI推理。通過Native方式完成推理的前處理、推理以及后處理，這里通過調用opencv、Mind

發表于 04-11 16:14

AI時代下PMIC需求暴增，設計提出新要求

? 電子發燒友網報道（文/黃山明）隨著AI技術的快速發展，AI芯片的功耗和性能也在不斷提升，這對電源系統提出了更高的要求。為了滿足AI芯片對

發表于 03-26 00:22 ?5143次閱讀

AMD EPYC處理器：AI推理能力究竟有多強？

如今，AMD EPYC處理器已經成為最常被選擇用于AI推理的服務器平臺，尤其是第四代Genoa EPYC 9004系列，執行AI推理的能力又得到了巨大的飛躍。

發表于 03-15 09:47 ?557次閱讀

AI推理框架軟件ONNX Runtime正式支持龍架構

近日，知名AI推理框架開源社區ONNX Runtime正式發布支持龍架構的版本1.17.0。

發表于 03-12 12:23 ?615次閱讀

Groq LPU崛起，AI芯片主戰場從訓練轉向推理

人工智能推理的重要性日益凸顯，高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來，全球芯片制造商的主要市場將全面轉向人工智能推理領域。

發表于 02-29 16:46 ?1238次閱讀

使用NVIDIA Triton推理服務器來加速AI預測

這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。

發表于 02-29 14:04 ?619次閱讀

美國FCC發布無線充設備WPT的新要求KDB680106 D01

2023年10月24日美國FCC發布無線充新要求KDB680106 D01Wireless Power Transfer v04，FCC整合了近兩年TCB workshop所提出的指引要求，詳見如下內容；

發表于 01-30 10:09 ?933次閱讀