色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Triton助力騰訊PCG加速在線推理

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:25 ? 次閱讀

案例簡介

本案例中通過NVIDIA T4 GPU,通過Ronda平臺調用Triton以及TensorRT, 整體提升開發(fā)和推理效能, 幫助騰訊PCG的多個服務整體效能提升2倍,吞吐量最大提升6倍,同時降低了40%的延時。本案例主要應用到 NVIDIA T4 GPU、TensorRT和Triton。

本案例主要應用到 NVIDIA T4 GPU、TensorRT和Triton。

客戶簡介及應用背景

騰訊平臺與內容事業(yè)群(簡稱 騰訊PCG)負責公司互聯網平臺和內容文化生態(tài)融合發(fā)展,整合QQ、QQ空間等社交平臺,和應用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內容業(yè)務,推動IP跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質數字內容體驗。

騰訊PCG機器學習平臺部旨在構建和持續(xù)優(yōu)化符合PCG技術中臺戰(zhàn)略的機器學習平臺和系統,提升PCG機器學習技術應用效率和價值。建設業(yè)務領先的模型訓練系統和算法框架;提供涵蓋數據標注、模型訓練、評測、上線的全流程平臺服務,實現高效率迭代;在內容理解和處理領域,輸出業(yè)界領先的元能力和智能策略庫。機器學習平臺部正服務于PCG所有業(yè)務產品

客戶挑戰(zhàn)

業(yè)務繁多,場景復雜

業(yè)務開發(fā)語言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預處理涉及圖片下載網絡io

多模型融合流程比教復雜,涉及循環(huán)調用

支持異構推理

模型推理結果異常時,難以方便地調試定位問題

需要與公司內現有協議/框架/平臺進行融合

應用方案

基于以上挑戰(zhàn),騰訊PCG選擇了采用NVIDIA 的Triton推理服務器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務成本。

NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產環(huán)境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯合推理的場景,構建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發(fā)和維護成本。

基于C++ 的基礎架構、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務的低延時需求,成本也降低了20%-66%。

通過將Triton編譯為動態(tài)鏈接庫,可以方便地鏈入公司內部框架,對接公司的平臺治理體系。符合C語言規(guī)范的API也極大降低了用戶的接入成本。

借助Python Backend和Custom Backend,用戶可以自由選擇使用C++/Python語言進行二次開發(fā)。

Triton的Tracing能力可以方便地捕捉執(zhí)行過程中的數據流狀態(tài)。結合Metrics 和 Perf Analysis等組件,可以快速定位開發(fā)調試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數據增強和圖像加載庫。DALI Backend可以用于替換掉原來的圖片解碼、resize等操作。FIL Backend也可以替代Python XGBoost模型推理,進一步提升服務端推理性能。

方案效果及影響

借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊PCG各業(yè)務場景中,以更低的成本構建了高性能的推理服務,同時更低的延遲降低了整條系統鏈路的響應時間,優(yōu)化了用戶體驗。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5075

    瀏覽量

    103532
  • C++
    C++
    +關注

    關注

    22

    文章

    2114

    瀏覽量

    73792
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    84951
收藏 人收藏

    評論

    相關推薦

    NVIDIA技術助力Pantheon Lab數字人實時交互解決方案

    NVIDIA Triton,Pantheon Lab 訓練速度提高 10 倍、推理延遲降低 50%,以及用戶參與度提升 30%。這些進步使對話式 AI 能夠提供實時且真實的互動,使 Pantheon Lab 在數字人技術不斷革
    的頭像 發(fā)表于 01-14 11:19 ?240次閱讀

    Triton編譯器在機器學習中的應用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務平臺的一部分,它負責將深度學習模型轉換為優(yōu)化的格式,以便
    的頭像 發(fā)表于 12-24 18:13 ?485次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    Triton 是一個開源的編譯器前端,它支持多種編程語言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個可擴展和可定制的編譯器框架,允許開發(fā)者添加新的編程語言特性和優(yōu)化技術
    的頭像 發(fā)表于 12-24 17:23 ?553次閱讀

    NVIDIA助力Figure發(fā)布新一代對話式人形機器人

    該初創(chuàng)公司展示了新型機器人,其使用 NVIDIA Isaac Sim 處理合成數據,并使用基于 NVIDIA 加速計算進行實時推理訓練的生成式 AI 模型。
    的頭像 發(fā)表于 11-04 10:10 ?306次閱讀

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優(yōu)化
    的頭像 發(fā)表于 10-29 14:12 ?655次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發(fā)任務中,還是在高并發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?297次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI訓練與<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解決方案

    NVIDIA與思科合作打造企業(yè)級生成式AI基礎設施

    NVIDIA 加速計算平臺、NVIDIA AI Enterprise 軟件和 NVIDIA NIM 推理微服務加持的思科 Nexus H
    的頭像 發(fā)表于 10-10 09:35 ?410次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產品,為
    的頭像 發(fā)表于 09-09 09:19 ?516次閱讀

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1 系列開源模型一起,為全球企業(yè)的生成式 AI
    的頭像 發(fā)表于 07-25 09:48 ?763次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、
    的頭像 發(fā)表于 07-24 11:38 ?976次閱讀

    NVIDIA加速計算和 AI助力數字銀行揭穿金融欺詐騙局

    Bunq 利用 NVIDIA AI 將其欺詐檢測模型的訓練速度提高近百倍。 ? 歐洲新型銀行 Bunq 正在 NVIDIA 加速計算和 AI 的助力下,揭穿金融欺詐者的騙局。 被稱為“
    的頭像 發(fā)表于 06-27 17:41 ?892次閱讀

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈

    英特爾助力京東云用CPU加速AI推理,以大模型構建數智化供應鏈
    的頭像 發(fā)表于 05-27 11:50 ?572次閱讀
    英特爾<b class='flag-5'>助力</b>京東云用CPU<b class='flag-5'>加速</b>AI<b class='flag-5'>推理</b>,以大模型構建數智化供應鏈

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的 NVID
    的頭像 發(fā)表于 04-28 10:36 ?616次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱
    的頭像 發(fā)表于 04-20 09:39 ?797次閱讀

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發(fā)表于 02-29 14:04 ?618次閱讀
    主站蜘蛛池模板: 一本久道久久综合婷婷五月 | 日本十八禁无遮无挡漫画 | 亚洲国产精品久久又爽黄A片 | 国产精品1区2区 | 欧美亚洲综合另类无码 | 欧美三级aaa | 亚洲中久无码永久在线 | 神马影院午夜伦理限级 | 久久精品无码一区二区日韩av | 久久久精品久久 | 久久精品中文字幕有码日本 | 秋霞电影网午夜鲁丝片无码 | 青青草 久久久 | 97无码欧美熟妇人妻蜜桃天美 | 国产精品久久久久久精品... | 91久久精品一区二区三区 | 亚州AV人片一区二区三区99久 | 午夜理论在线观看不卡大地影院 | 夜夜狂射影院欧美极品 | 我解开了岳的乳第一个女人 | 天天久久影视色香综合网 | 快播苍井空 | 久久精视频 | A级毛片高清免费网站不卡 a级毛片高清免费视频 | 国产成人自拍视频在线观看 | 黄瓜视频苹果直接安装 | 青娱乐极品视觉盛宴av | 蜜桃传媒在线播放 | 九九热这里只有精品视频免费 | 秋霞在线看片无码免费 | 里番acg纲手的熟蜜姬训练场 | 99在线免费观看 | 国产午夜电影院 | 亚洲国产中文字幕在线视频综合 | 秋霞鲁丝片Av无码 | 午夜理论在线观看不卡大地影院 | 99久久国产免费福利 | 欧美精品成人一区二区在线观看 | 囯产精品久久久久久久久蜜桃 | 暖暖的高清视频在线观看免费中文 | 2020精品国产视 |