色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認(rèn)識(shí)你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

感謝眾多用戶及合作伙伴一直以來對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布！

TensorRT-LLM

持續(xù)助力用戶優(yōu)化推理性能

TensorRT-LLM 可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Models）的推理性能。該開源程序庫在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費(fèi)提供。

近期，我們收到了許多用戶的積極反饋，并表示，TensorRT-LLM 不僅顯著提升了性能表現(xiàn)，還成功地將其應(yīng)用集成到各自的業(yè)務(wù)中。TensorRT-LLM 強(qiáng)大的性能和與時(shí)俱進(jìn)的新特性，為客戶帶來了更多可能性。

Roadmap 現(xiàn)已公開發(fā)布

過往，許多用戶在將 TensorRT-LLM 集成到自身軟件棧的過程中，總是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起，NVIDIA 正式對(duì)外公開 TensorRT-LLM 的 Roadmap ，旨在幫助用戶更好地規(guī)劃產(chǎn)品開發(fā)方向。

我們非常高興地能與用戶分享，TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布。您可以通過以下鏈接隨時(shí)查閱：

https://github.com/NVIDIA/TensorRT-LLM

圖 1. NVIDIA/TensorRT-LLM GitHub 網(wǎng)頁截屏

這份 Roadmap 將為您提供關(guān)于未來支持的功能、模型等重要信息，助力您提前部署和開發(fā)。

同時(shí)，在 Roadmap 頁面的底部，您可通過反饋鏈接提交問題。無論是問題報(bào)告還是新功能建議，我們都期待收到您的寶貴意見。

圖 2.Roadmap 整體框架介紹

利用 TensorRT-LLM

優(yōu)化大語言模型推理

TensorRT-LLM 是一個(gè)用于優(yōu)化大語言模型（LLM）推理的庫。它提供最先進(jìn)的優(yōu)化功能，包括自定義 Attention Kernel、Inflight Batching、Paged KV Caching、量化技術(shù)（FP8、INT4 AWQ、INT8 SmoothQuant 等）以及更多功能，以讓你手中的 NVIDIA GPU 能跑出極致推理性能。

TensorRT-LLM 已適配大量的流行模型。通過類似 PyTorch 的 Python API，可以輕松修改和擴(kuò)展這些模型以滿足自定義需求。以下是已支持的模型列表。

我們鼓勵(lì)所有用戶定期查閱 TensorRT-LLM Roadmap。這不僅有助于您及時(shí)了解 TensorRT-LLM 的最新動(dòng)態(tài)，還能讓您的產(chǎn)品開發(fā)與 NVIDIA 的技術(shù)創(chuàng)新保持同步。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4990

瀏覽量
103099
GitHub

GitHub

+關(guān)注

關(guān)注
3

文章
471

瀏覽量
16458
LLM

LLM

+關(guān)注

關(guān)注
0

文章
288

瀏覽量
345

原文標(biāo)題：NVIDIA TensorRT-LLM Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布！

文章出處：【微信號(hào)：NVIDIA-Enterprise，微信公眾號(hào)：NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測(cè)解碼技術(shù)，該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-L

發(fā)表于 12-25 17:31 ?134次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計(jì)的庫。它提供了多種先進(jìn)的優(yōu)化技術(shù)，包括自定義 Attention Kernel、Inflight

發(fā)表于 12-17 17:47 ?170次閱讀

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model

發(fā)表于 11-19 14:29 ?310次閱讀

NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

Nemotron-4 340B 是針對(duì) NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列，該系列包含最先進(jìn)的指導(dǎo)和獎(jiǎng)勵(lì)模型，以及一個(gè)用于生成式 AI 訓(xùn)練的數(shù)據(jù)集。

發(fā)表于 09-06 14:59 ?323次閱讀

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區(qū)是中國(guó)最具影響力的模型開源社區(qū)，致力給開發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應(yīng)用部署，提高了大模型產(chǎn)業(yè)應(yīng)用效率，更大規(guī)模地釋放大模型的

發(fā)表于 08-23 15:48 ?455次閱讀

Mistral Large 2現(xiàn)已在Amazon Bedrock中正式可用

北京2024年7月25日 /美通社/ -- 亞馬遜云科技宣布，Mistral AI的Mistral Large 2（24.07）基礎(chǔ)模型（FM）現(xiàn)已在Amazon Bedrock中正式可用

發(fā)表于 07-26 08:07 ?341次閱讀

NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業(yè)軟件支持

Enterprise-IGX軟件現(xiàn)已在NVIDIA IGX平臺(tái)上正式可用，以滿足工業(yè)邊緣對(duì)實(shí)時(shí) AI 計(jì)算日益增長(zhǎng)的需求。它們將共同幫助醫(yī)療、工業(yè)和科學(xué)計(jì)算領(lǐng)域的解決方案提供商利用企業(yè)級(jí)軟件和支持來加快開發(fā)

發(fā)表于 06-04 10:21 ?510次閱讀

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個(gè)開源庫，用于優(yōu)化從 PC 到云端的

發(fā)表于 04-28 10:36 ?576次閱讀

Mistral Large模型現(xiàn)已在Amazon Bedrock上正式可用

Mistral AI的Mistral Large模型現(xiàn)已在Amazon Bedrock上正式可用。今年三月，亞馬遜云科技在Amazon Bedrock上引入了法國(guó)先鋒AI初創(chuàng)企業(yè)Mistral AI

發(fā)表于 04-08 16:26 ?564次閱讀

基于NVIDIA Megatron Core的MOE LLM實(shí)現(xiàn)和訓(xùn)練優(yōu)化

本文將分享阿里云人工智能平臺(tái) PAI 團(tuán)隊(duì)與 NVIDIA Megatron-Core 團(tuán)隊(duì)在 MoE (Mixture of Experts) 大語言模型（LLM）實(shí)現(xiàn)與訓(xùn)練優(yōu)化上的創(chuàng)新工作。

發(fā)表于 03-22 09:50 ?786次閱讀

Android 15的首個(gè)開發(fā)者預(yù)覽版現(xiàn)已發(fā)布

Android 15 的首個(gè)開發(fā)者預(yù)覽版現(xiàn)已發(fā)布，以便各位開發(fā)者能與我們通力協(xié)作，打造更優(yōu)秀的 Android 平臺(tái)。

發(fā)表于 03-12 14:16 ?927次閱讀

ServiceNow、Hugging Face 和 NVIDIA 發(fā)布全新開放獲取 LLM，助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日發(fā)布 StarCoder2，其為一系列用于代碼生成的開放獲取大語言模型（LLM

發(fā)表于 02-29 11:12 ?250次閱讀

TensorRT LLM加速Gemma！NVIDIA與谷歌牽手，RTX助推AI聊天

NVIDIA今天在其官方博客中表示，今天與谷歌合作，在所有NVIDIA AI平臺(tái)上為Gemma推出了優(yōu)化。

發(fā)表于 02-23 09:42 ?617次閱讀

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗(yàn)

本案例通過利用NVIDIA TensorRT-LLM加速指令識(shí)別深度學(xué)習(xí)模型，并借助NVIDIA Triton推理服務(wù)器在NVIDIA V100 GPU上進(jìn)行高效部署，幫助必優(yōu)科技的文

發(fā)表于 01-17 09:30 ?697次閱讀

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理優(yōu)化實(shí)踐

CodeFuse是由螞蟻集團(tuán)開發(fā)的代碼語言大模型，旨在支持整個(gè)軟件開發(fā)生命周期，涵蓋設(shè)計(jì)、需求、編碼、測(cè)試、部署、運(yùn)維等關(guān)鍵階段。

發(fā)表于 01-12 18:13 ?1134次閱讀

NVIDIA英偉達(dá)企業(yè)解決方案
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot NVIDIA將深度學(xué)習(xí)引入計(jì)算機(jī)圖形領(lǐng)域以推動(dòng)行業(yè)發(fā)展
Hot 一文講述Quadro RTX 5000帶來的性能提升

New 新的AI研究為自主機(jī)器人手術(shù)提供未來方向
New NVIDIA助力群核空間智能平臺(tái)SpatialVerse發(fā)布

精選推薦
更多

文章

資料

帖子

華為輪值董事長(zhǎng)孟晚舟新年致辭：?前行路上，你我皆星辰

華為
4小時(shí)前

144 閱讀

一千余字解讀stm32時(shí)鐘樹

撞上電子
17小時(shí)前

198 閱讀

晶揚(yáng)電子高速信號(hào)線專用浪涌保護(hù)器件TS0321TB-Fx解析

晶揚(yáng)電子
5小時(shí)前

186 閱讀

電路中的主動(dòng)元件，被動(dòng)元件，有源器件，無源器件，分立元件，集成電路怎么區(qū)分？

硬件那點(diǎn)事兒
2小時(shí)前

134 閱讀

一場(chǎng)化工AI大賽，點(diǎn)亮行業(yè)智能化的星星之火

腦極體
13小時(shí)前

214 閱讀

Awesome-Android-Architecture架構(gòu)文章

尤立虔
0.01 MB

2積分

1下載

edwin報(bào)警和監(jiān)控平臺(tái)

李微波
0.64 MB

免費(fèi)

0下載

zy-im基于Netty的IM服務(wù)

123
0.14 MB

免費(fèi)

0下載

qTox Tox?客戶端

吳湛
6.74 MB

2積分

2下載

HTY360Player iOS 360度視頻播放器

靚仔峰
62.57 MB

免費(fèi)

0下載

嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡-TF卡燒錄流程之燒寫過程

jf_13411809
14小時(shí)前

154 閱讀

樹莓派5無法開機(jī)，一直亮紅燈，嗯一下開關(guān)綠燈循環(huán)閃爍4次

jf_96142202
14小時(shí)前

264 閱讀

請(qǐng)問simulink的s-function模塊如何添加多輸入輸出接口

jf_63880428
1天前

200 閱讀

RISC-V在MCU中有哪些知名的開源項(xiàng)目？

dutong0321
1天前

212 閱讀

【「嵌入式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)」閱讀體驗(yàn)】+ 智能晾衣架

full_stack
1天前

659 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

評(píng)論

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

TensorRT-LLM低精度推理優(yōu)化

NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

Mistral Large 2現(xiàn)已在Amazon Bedrock中正式可用

NVIDIA 通過 Holoscan 為 NVIDIA IGX 提供企業(yè)軟件支持

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

Mistral Large模型現(xiàn)已在Amazon Bedrock上正式可用

基于NVIDIA Megatron Core的MOE LLM實(shí)現(xiàn)和訓(xùn)練優(yōu)化

Android 15的首個(gè)開發(fā)者預(yù)覽版現(xiàn)已發(fā)布

ServiceNow、Hugging Face 和 NVIDIA 發(fā)布全新開放獲取 LLM，助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用

TensorRT LLM加速Gemma！NVIDIA與谷歌牽手，RTX助推AI聊天

利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗(yàn)

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理優(yōu)化實(shí)踐