色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用NVIDIA Triton Inference Server

jf_pJlTbmA9 ? 來源:NVIDIA ? 作者:NVIDIA ? 2023-07-05 16:30 ? 次閱讀

人工智能模型無處不在,形式包括聊天機器人、分類和摘要工具、用于分割和檢測的圖像模型、推薦模型等。人工智能機器學習( ML )模型有助于實現許多業務流程的自動化,從數據中生成見解,并提供新的體驗。

PythonAI/ML 開發中最受歡迎的語言之一。本文將教您如何使用 NVIDIA Triton Inference Server,并利用新的 PyTriton 接口。

更具體地說,您將學習如何在 Python 開發環境中使用生產類工具對人工智能模型進行原型化和測試推理,以及如何使用 PyTriton 接口進行生產。與 FastAPI 或 Flask 等通用 web 框架相比,您還將了解使用 PyTriton 的優勢。這篇文章包括幾個代碼示例,說明如何激活高性能的批處理、預處理和多節點推理;并實施在線學習。

什么是 PyTriton ?

PyTriton 是一個簡單的接口,可讓 Python 開發人員使用 Triton 推理服務器為 Python 代碼中的人工智能模型、簡單處理功能或整個推理管道提供服務。Triton 推理服務器是一款開源的多框架推理服務軟件,在 CPUGPU 上具有較高的性能。

PyTriton 可以實現快速原型設計和測試 ML 模型,同時實現高 GPU 利用率的性能和效率。只需一行代碼,就可以調出 Triton 推理服務器,提供 動態批處理、并發模型執行以及從 GPU 代碼中支持 GPU 和 Python 的優勢。

PyTriton 消除了建立模型存儲庫和將模型從開發環境移植到生產環境的需要?,F有的推理管道代碼也可以在不進行修改的情況下使用。這對于較新類型的框架(如 JAX )或復雜的管道(它們是 Triton 推理服務器中沒有專用后端的應用程序代碼的一部分)尤其有用。

Flask 的簡單性

Flask 和FastAPI 是通用的 Python Web 框架,用于部署各種各樣的 Python 應用程序。由于它們的簡單性和廣泛采用,許多開發人員在生產中使用它們來部署和運行人工智能模型。然而,這種方法存在顯著的缺點,包括:

通用網絡服務器缺乏對人工智能推理功能的支持。沒有現成的支持來利用像 GPU 這樣的加速器,或者打開動態批處理或多節點推理。

用戶需要構建邏輯來滿足特定用例的需求,如音頻/視頻流輸入、有狀態處理或預處理輸入數據以適應模型。

關于計算和內存利用率或推理延遲的指標不容易用于監控應用程序的性能和規模。

Triton Inference Server包含對上述功能以及更多功能的內置支持。PyTriton 提供了 Flask 的簡單性和 Python 中 Triton 的示例部署。HuggingFace 文本分類管道使用 PyTriton 如下所示:

import logging

 

import numpy as np

from transformers import BertTokenizer, FlaxBertModel  # pytype: disable=import-error

 

from pytriton.decorators import batch

from pytriton.model_config import ModelConfig, Tensor

from pytriton.triton import Triton

 

logger = logging.getLogger("examples.huggingface_bert_jax.server")

logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(name)s: %(message)s")

 

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

model = FlaxBertModel.from_pretrained("bert-base-uncased")

 

 

@batch

def _infer_fn(**inputs: np.ndarray):

	(sequence_batch,) = inputs.values()

 

	# need to convert dtype=object to bytes first

	# end decode unicode bytes

	sequence_batch = np.char.decode(sequence_batch.astype("bytes"), "utf-8")

 

	last_hidden_states = []

	for sequence_item in sequence_batch:

    	tokenized_sequence = tokenizer(sequence_item.item(), return_tensors="jax")

    	results = model(**tokenized_sequence)

    	last_hidden_states.append(results.last_hidden_state)

	last_hidden_states = np.array(last_hidden_states, dtype=np.float32)

	return [last_hidden_states]

 

 

with Triton() as triton:

	logger.info("Loading BERT model.")

	triton.bind(

    	model_name="BERT",

    	infer_func=_infer_fn,

    	inputs=[

        	Tensor(name="sequence", dtype=np.bytes_, shape=(1,)),

    	],

    	outputs=[

        	Tensor(name="last_hidden_state", dtype=np.float32, shape=(-1,)),

    	],

PyTriton 為 Flask 用戶提供了一個熟悉的界面,便于安裝和設置,并提供了以下好處:

?用一行代碼調出 NVIDIA Triton

無需設置模型存儲庫和模型格式轉換(對于使用 Triton 推理服務器的高性能實現非常重要)

使用現有推理管道代碼而不進行修改

支持許多裝飾器來調整模型輸入

無論是在generative AI應用程序還是其他模型中,PyTriton 可以讓您在自己的開發環境中獲得 Triton InferenceServer 的好處。它可以幫助利用 GPU 在很短的時間內(毫秒或秒,取決于用例)生成推理響應。它還有助于以高容量運行 GPU ,并且可以同時為許多推理請求提供服務,且基礎設施成本低。

PyTriton 代碼示例

本節提供了一些可以用來開始 PyTriton 的代碼示例。它們從本地機器開始,這是測試和原型的理想選擇,并為大規模部署提供 Kubernetes 配置。

動態配料支持

Flask/FastAPI 和 PyTriton 之間的一個關鍵區別是,動態批處理允許對來自模型的多個調用應用程序的推理請求進行批處理,同時保留延遲要求。兩個示例是HuggingFace BART PyTorch和HuggingFace ResNET PyTorch。

在線學習

在線學習是指在生產中不斷從新數據中學習。使用 PyTriton,您可以控制支持推理服務器的不同模型實例的數量,從而使您能夠同時訓練和服務同一個模型。想要了解更多關于如何使用 PyTriton 在 MNIST 數據集上同時訓練和推斷模型的信息,請訪問 PyTriton 的示例。

大型語言模型的多節點推理

太大而無法放入單個 GPU 內存的大型語言模型(LLM)需要將模型劃分為多個 GPU,在某些情況下,還需要跨多個節點進行推理。要查看示例,請訪問 Hugging Face OPT 模型在 JAX 中的多節點推理。

想要查看NeMo Megatron GPT 模型部署,使用NVIDIA NeMo 1.3B 參數模型。使用 Slurm 和 Kubernetes 展示了多節點推理部署編排。

穩定擴散

使用 PyTriton ,您可以使用預處理裝飾器來執行高級批處理操作,例如使用簡單的定義將相同大小的圖像批處理在一起:

@batch

@group_by_values("img_size")

@first_value("img_size")

想了解更多信息,請查看此示例,該示例使用 Hugging Face 的 Stable Diffusion 1.5 圖像生成管道。

總結

PyTriton 提供了一個簡單的接口,使 GPU 開發人員能夠使用 NVIDIA Triton InferenceServer 為模型、簡單的處理功能或整個推理管道提供服務。這種對 Python 中的 Triton 推理服務器的本地支持使 ML 模型的快速原型設計和測試具有性能和效率。一行代碼就會顯示 Triton 推理服務器。動態批處理、并發模型執行以及 Python 代碼中對 GPU 和 Python 的支持都是其中的好處。 PyTriton 提供了 Flask 的簡單性和 Python 中 Triton InferenceServer 的優點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5075

    瀏覽量

    103569
  • 人工智能
    +關注

    關注

    1796

    文章

    47642

    瀏覽量

    239821
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    84971
收藏 人收藏

    評論

    相關推薦

    GTC2022大會黃仁勛:NVIDIA Triton是AI部署的“中央車站”

    GTC2022大會黃仁勛:NVIDIA Triton是AI部署的“中央車站”,支持在每一代NVIDIA GPU、x86和ARM CPU上部署模型。
    的頭像 發表于 03-23 16:23 ?1494次閱讀
    GTC2022大會黃仁勛:<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>是AI部署的“中央車站”

    Microsoft使用NVIDIA Triton加速AI Transformer模型應用

    Microsoft 的目標是,通過結合使用 Azure 與 NVIDIA GPU 和 Triton 推理軟件,率先將一系列強大的 AI Transformer 模型投入生產用途。
    的頭像 發表于 04-02 13:04 ?1803次閱讀

    NVIDIA Triton推理服務器簡化人工智能推理

    GKE 的 Triton 推理服務器應用程序是一個 helm chart 部署程序,可自動安裝和配置 Triton ,以便在具有 NVIDIA GPU 節點池的 GKE 集群上使用,包括
    的頭像 發表于 04-08 16:43 ?2264次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>推理服務器簡化人工智能推理

    使用NVIDIA Triton推理服務器簡化邊緣AI模型部署

      NVIDIA Triton 有助于在每個數據中心、云和嵌入式設備中實現標準化的可擴展生產 AI 。它支持多個框架,在 GPU 和 DLA 等多個計算引擎上運行模型,處理不同類型的推理查詢。通過與 NVIDIA JetPack
    的頭像 發表于 04-18 15:40 ?2825次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>推理服務器簡化邊緣AI模型部署

    利用NVIDIA Triton推理服務器加速語音識別的速度

    網易互娛 AI Lab 的研發人員,基于 Wenet 語音識別工具進行優化和創新,利用 NVIDIA Triton 推理服務器的 GPU Batch Inference 機制加速了語音識別的速度,并且降低了成本。
    的頭像 發表于 05-13 10:40 ?2040次閱讀

    NVIDIA Triton助力騰訊PCG加速在線推理

      借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整體推理服務的吞吐能力最大提升 6 倍,延遲最大降低 40%。
    的頭像 發表于 05-20 15:25 ?2374次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>助力騰訊PCG加速在線推理

    基于NVIDIA Triton的AI模型高效部署實踐

    NVIDIA Triton 推理服務器(以前稱為 TensorRT 推理服務器)是一款開源軟件,可簡化深度學習模型在生產環境中的部署。借助 Triton 推理服務器,Devops 和 MLops
    的頭像 發表于 06-28 15:49 ?1692次閱讀

    NVIDIA Triton的概念、特性及主要功能

    NVIDIA Triton 推理服務器是 NVIDIA AI 平臺的一部分,它是一款開源推理服務軟件,可助力標準化模型的部署和執行,并在生產環境中提供快速且可擴展的 AI。
    的頭像 發表于 07-18 10:11 ?3267次閱讀

    NVIDIA Triton系列文章:開發資源說明

    這里最重要的是 “server documents on GitHub” 鏈接,點進去后會進入整個 Triton 項目中最完整的技術文件中心(如下圖),除 Installation
    的頭像 發表于 11-09 16:17 ?778次閱讀

    NVIDIA Triton 系列文章(4):創建模型倉

    ://github.com/triton-inference-server/server/tree/main/docs? 這個最完整的說明文件區,在? “User Guide”? 里的前 5 個步驟,就是為 Tr
    的頭像 發表于 11-15 21:20 ?1051次閱讀

    NVIDIA Triton 系列文章(9):為服務器添加模型

    前面已經用? https://github.com/triton-inference-server/server/doc/examples 開源倉的范例資源,創建一個最基礎的模型倉以便執行一些
    的頭像 發表于 12-27 21:20 ?1126次閱讀

    如何使用NVIDIA Triton 推理服務器來運行推理管道

    使用集成模型在 NVIDIA Triton 推理服務器上為 ML 模型管道提供服務
    的頭像 發表于 07-05 16:30 ?1459次閱讀
    如何使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b> 推理服務器來運行推理管道

    周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

    由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會,將幫助您了解 NVIDIA 開源大型語言模型(LLM)推理加速庫 TensorRT-LLM ?及其功能
    的頭像 發表于 10-26 09:05 ?371次閱讀

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?627次閱讀

    Triton編譯器在機器學習中的應用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務平臺的一部分,它負責將深度學習模型轉換為優化的格式,以便在NVI
    的頭像 發表于 12-24 18:13 ?495次閱讀
    主站蜘蛛池模板: 果冻传媒2021在线观看 | 一区不卡二区卡 | av在线不卡中文网 | 成人性生交片无码免费看 | 一区二区三区福利视频 | 最近中文字幕高清中文 | 久久99国产精品二区不卡 | 伊人国产视频 | 久久精品综合网中文字幕 | 亚洲AV色香蕉一区二区三区 | 日产精品高潮呻吟AV久久 | 妈妈的朋友6未删减版完整在线 | 国产黄大片在线视频 | 久久亚洲欧美国产综合 | 含羞草在线 | 久热人人综合人人九九精品视频 | 久久精品亚洲AV无码三区观看 | 久久婷婷五月综合色精品首页 | 久久笫一福利免费导航 | 91久久精品一区二区三区 | xxx365| 男女作爱在线播放免费网页版观看 | 99热精品在线av播放 | 大中国免费视频大全在线观看 | 色久悠悠无码偷拍自怕 | 亚洲二区电影 | 国产免费午夜 | 无码精品AV久久久奶水 | 中文字AV字幕在线观看 | 嘟嘟嘟WWW在线观看视频高清 | 国产人妻人伦精品久久无码 | 91精品一区二区综合在线 | 米奇在线8888在线精品视频 | 妻子的妹妹在线 | 耻辱诊察室1一4集动漫在线观看 | a一级一片免费观看视频 | 国产又色又爽又刺激在线播放 | 久久久久久免费高清电影 | 男人电影天堂手机 | 99久热这里精品免费 | 久久er国产免费精品 |