NVIDIA TensorRT 是一個高性能推理平臺,對于利用 NVIDIA Tensor Core GPU 的強大功能至關重要。TensorRT 8 是一個軟件開發套件,其增強功能旨在提高性能和準確性,以應對在邊緣和嵌入式設備中發生的越來越多的 AI 推理。它允許對 TensorFlow 和 PyTorch 神經網絡進行廣泛的計算推理。
與純 CPU 平臺相比,TensorRT 可提供高達 40 倍的吞吐量,同時最大限度地減少延遲。它允許您從任何框架開始,并在生產中快速優化、驗證和部署經過訓練的神經網絡。
新版本在 NVIDIA Ampere GPU 上加入了稀疏性,可以修剪對網絡整體計算沒有貢獻的弱連接。此外,TensorRT 8 支持變壓器優化和 BERT-Large。Transformer 優化提高了性能,而量化感知訓練提高了準確性。
NVIDIA 的 TensorRT 8 有哪些新功能?
推理的目的是從訓練階段盡可能多地保留準確性。訓練后的模型可以在硬件設備上運行,以獲得客戶最低的響應時間和最大的吞吐量。但是,盡可能精確的必要性有時可能會與邊緣可用的內存量和吞吐量發生沖突。訓練有素、高度準確的模型可能運行速度太慢。
因此,TensorRT 版本 8 結合了深度學習推理應用或經過訓練的神經網絡模型的最新進展,以了解數據如何影響響??應。它使用兩個主要功能將語言查詢推理時間減少一半:
NVIDIA 安培架構的稀疏性
深度神經網絡擅長各種任務,例如計算機視覺、語音識別和自然語言處理。隨著處理這些神經網絡所需的計算能力增加,有效的建模和計算變得越來越重要。
Sparse 是一種適用于具有 NVIDIA Ampere 架構的 GPU 的新性能方法,可通過減少計算過程來提高開發人員的效率。深度學習模型的其他方面不如其他方面重要,有些甚至可以為零。因此,神經網絡不需要對特定的權重或參數進行計算。因此,NVIDIA 可以通過使用稀疏性將模型的權重減少近一半來提高性能、吞吐量和延遲。
通過變壓器優化減少推理計算
在 TensorRT 8 中,性能增強是通過變壓器優化實現的。量化開發人員可以利用經過訓練的模型通過 8 位計算 (INT8) 執行推理。這大大減少了 Tensor 核心中的推理計算和存儲。INT8 越來越多地用于優化機器學習框架,例如 TensorFlow 和 NVIDIA 的 TensorRT,以減少內存和計算需求。因此,NVIDIA 可以在保持準確性的同時在 Tensor RT 8 上提供非常高的性能。
例如,量化感知訓練 (QAT) 有可能使準確率翻倍。因此,與舊版本 TensorRT 7 相比,TensorRT 8 可以將許多模型的性能提高一倍。
TensorRT 部署在眾多行業中
TensorRT 更好的性能和準確性使其成為醫療保健、汽車、互聯網/電信服務、金融服務和零售等行業的熱門選擇。例如,Tensor RT 用于為 GE Healthcare 的心血管超聲系統供電。這家數字診斷解決方案提供商使用該技術在其 Vivid E95 掃描儀上加速自動心臟視圖檢測。通過使用改進的視圖檢測算法,心臟病專家可以在早期階段做出更準確的診斷和檢測疾病。此外,TensorRT 還被 Verizon、福特、美國郵政服務、美國運通等知名公司使用。
隨著 Tensor RT 8 的發布,NVIDIA 還公布了谷歌使用 Tensor RT 在 BERT-large 推理方面的突破。Transformers 的雙向編碼器表示 (BERT) 是一種基于 Transformer 的機器學習技術,用于預訓練自然語言處理。BERT-Large 模型的分析時間僅為 1.2 毫秒,可以實時響應自然語言查詢。這意味著公司可以將其模型的大小增加一倍或三倍,以獲得更高的準確性。
許多推理服務在幕后使用諸如 BERT-Large 之類的語言模型。另一方面,基于語言的應用程序通常無法識別細微差別或情感,從而導致整體體驗不佳。現在,公司可以使用 TensorRT 8 在幾毫秒內部署整個工作流程。這些突破可以為新一代對話式 AI 應用程序鋪平道路,為用戶提供更智能和低延遲的體驗。
審核編輯:郭婷
-
變壓器
+關注
關注
159文章
7524瀏覽量
136138 -
cpu
+關注
關注
68文章
10901瀏覽量
212736 -
NVIDIA
+關注
關注
14文章
5075瀏覽量
103560
發布評論請先 登錄
相關推薦
評論