最新国产成人综合在线观看,亚洲最大成人综合网,视频一区在线观看

無量推薦系統承載著騰訊PCG（平臺與內容事業群）的推薦場景，包括：騰訊看點（瀏覽器、QQ看點、商業化）、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應用寶、小鵝拼拼等。無量推薦系統支持日活躍用戶達數億級別，其中的模型數量達數千個，日均調用服務達到千億級別。無量推薦系統，在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業界領先的體系結構設計。

傳統推薦系統面臨挑戰

傳統推薦系統具有以下特點：訓練是基于參數服務器的框架，解決海量數據和稀疏特征的分布式訓練問題。推理通常分離大規模Embedding和DNN，只能進行DNN的GPU加速。所以，傳統的推薦系統架構具有一些局限性：1. 大規模分布式架構有大量的額外開銷，比如參數和梯度的網絡收發。2. 隨著DNN模型復雜性的的進一步提升，CPU的計算速度開始捉襟見肘。隨著業務的快速增長，日活用戶增多，對其調用數量快速增加，給推薦系統后臺帶來了新的挑戰：1. 模型更加復雜，計算量更大，但是參數服務器的分布式架構有效計算比很低。2. 海量Embedding因為規模龐大，查詢和聚合計算難以有效利用GPU高性能顯存和算力的優勢。

GPU助力提升模型訓練和推理性價比

基于以上的挑戰，騰訊PCG（平臺與內容事業群）選擇使用基于NVIDIA A100 GPU的分布式系統架構來創建無量推薦系統。

1. 通過多級存儲和Pipeline優化，在HPC上完成大規模推薦模型的GPU的高性能訓練。2. 基于特征訪問Power-law分布的特性，GPU緩存高頻特征參數，同時從CPU中動態獲取低頻特征參數，實現了大規模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業務場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統承載了這些推薦業務場景的模型訓練和推理服務。基于傳統的推薦系統架構，無量推薦系統使用大量CPU資源，通過分布式架構可以擴展到TB級模型的訓練和部署，取得了巨大的成功。隨著業務的快速增長，日活用戶增多，對其調用數量快速增加，傳統架構局限性限制了推薦系統的架構擴展和性能提升。

通過使用GPU訓練和推理，單機多卡的GPU算力可以達到數十臺CPU機器的算力，節省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding，以及并行算力處理DNN推理，單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構可以提升模型訓練和推理性價比1~3倍。

未來，無量推薦系統將不斷優化推薦模型在GPU上的應用，利用HPC多機多卡，混合精度等能力，進一步提高推薦場景使用GPU的性價比。

重磅！NVIDIA行業微站一睹為快！內容涵蓋NVIDIA主要的12大行業方案，以及NVIDIA當期重點產品資料。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5049

瀏覽量
103357

原文標題：NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統

文章出處：【微信號：murata-eetrend，微信公眾號：murata-eetrend】歡迎添加關注！文章轉載請注明出處。

GPU是如何訓練AI大模型的

在AI模型的訓練過程中，大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來，AI部落小編帶您了解GPU是如何

發表于 12-19 17:54 ?174次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發揮出卓越的推理性能。

發表于 12-17 17:47 ?224次閱讀

PyTorch GPU 加速訓練模型方法

在深度學習領域，GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架，提供了豐富的工具和

發表于 11-05 17:43 ?592次閱讀

NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise，為企業和科研機構提供了一套高效、靈活的 AI 訓練與推理加速解決方案。無論是在復雜的 AI 開發任務中，還是在高并發

發表于 10-27 10:03 ?273次閱讀

<b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>麗蟾科技打造AI<b class='flag-5'>訓練</b>與<b class='flag-5'>推理</b>加速解決方案

為什么ai模型訓練要用gpu

GPU憑借其強大的并行處理能力和高效的內存系統，已成為AI模型訓練不可或缺的重要工具。

發表于 10-24 09:39 ?361次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

近期，第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試（AISBench）。英特爾成為首批通過AISBench大語言模型（LLM）推理性能測試的企業

發表于 09-06 15:33 ?378次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越<b class='flag-5'>推理性</b>能

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區是中國最具影響力的模型開源社區，致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM，大大提高了大語言模型的

發表于 08-23 15:48 ?477次閱讀

llm模型訓練一般用什么系統

。硬件系統 1.1 GPU（圖形處理器）在訓練大型語言模型時，GPU是首選的硬件設備。相比于CPU，GPU具有更高的并行處理能力，可以顯

發表于 07-09 10:02 ?454次閱讀

摩爾線程和滴普科技完成大模型訓練與推理適配

近日，摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥（KUAE）千卡智算集群與滴普科技的企業大模型Deepexi已完成訓練及推理適配，共同實現了700億參數LLaMA2大語言模型

發表于 05-30 10:14 ?567次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

。 **英偉達Blackwell架構在數據中心方面的應用有哪些？** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優化，能夠

發表于 05-13 17:16

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

豐富的常識知識，能夠基于常識進行推理，填補信息空白，并作出合理推斷。隨著訓練規模和參數量的增加，大語言模型的推理能力將持續提升，為解決實際問

發表于 05-04 23:55

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的 NVID

發表于 04-28 10:36 ?596次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網絡和熱

發表于 04-20 09:39 ?775次閱讀

自然語言處理應用LLM推理優化綜述

當前，業界在將傳統優化技術引入 LLM 推理的同時，同時也在探索從大模型自回歸解碼特點出發，通過調整推理過程和引入新的模型結構來進一步提升

發表于 04-10 11:48 ?640次閱讀

利用NVIDIA產品技術組合提升用戶體驗

本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型，并借助NVIDIA Triton推理服務器在NVIDIA V1

發表于 01-17 09:30 ?726次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

NVIDIA GPU助力提升模型訓練和推理性價比

評論

GPU是如何訓練AI大模型的

解鎖NVIDIA TensorRT-LLM的卓越性能

PyTorch GPU 加速訓練模型方法

NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

為什么ai模型訓練要用gpu

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

llm模型訓練一般用什么系統

摩爾線程和滴普科技完成大模型訓練與推理適配

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

利用NVIDIA組件提升GPU推理的吞吐

自然語言處理應用LLM推理優化綜述

利用NVIDIA產品技術組合提升用戶體驗