色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用GPUNet在NVIDIA GPU上擊敗SOTA推理性能

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 10:14 ? 次閱讀

GPUNet 由 AI 為 AI 精心打造,是一類(lèi)卷積神經(jīng)網(wǎng)絡(luò),旨在使用 NVIDIA TensorRT 最大化 NVIDIA GPU 的性能。

使用新的神經(jīng)架構(gòu)搜索( NAS )方法構(gòu)建, GPUNet 展示了最先進(jìn)的推理性能,比 EfficientNet-X 和 FBNet-V3 快兩倍。

NAS 方法有助于為廣泛的應(yīng)用構(gòu)建 GPUNet ,以便深度學(xué)習(xí)工程師可以根據(jù)相對(duì)精度和延遲目標(biāo)直接部署這些神經(jīng)網(wǎng)絡(luò)。

GPUNet NAS 設(shè)計(jì)方法

高效的體系結(jié)構(gòu)搜索和部署就緒模型是 NAS 設(shè)計(jì)方法的關(guān)鍵目標(biāo)。這意味著幾乎不與領(lǐng)域?qū)<疫M(jìn)行交互,并且有效地使用集群節(jié)點(diǎn)來(lái)培訓(xùn)潛在的架構(gòu)候選。最重要的是,生成的模型已準(zhǔn)備好部署。

人工智能制作

為目標(biāo)設(shè)備尋找性能最佳的架構(gòu)搜索可能很耗時(shí)。 NVIDIA 構(gòu)建并部署了一種新型的 NAS AI 代理,該代理可以有效地做出構(gòu)建 GPUNET 所需的艱難設(shè)計(jì)選擇,使 GPUNET 比當(dāng)前的 SOTA 模型領(lǐng)先 2 倍。

此 NAS AI 代理在中自動(dòng)協(xié)調(diào)數(shù)百個(gè) GPU Selene 超級(jí)計(jì)算機(jī) 而不需要領(lǐng)域?qū)<业娜魏胃深A(yù)。

使用 TensorRT 為 NVIDIA GPU 優(yōu)化

GPUNet 通過(guò)相關(guān)的 TensorRT 推理延遲成本,提升 GPU 友好的運(yùn)算符(例如,較大的篩選器)而不是內(nèi)存綁定運(yùn)算符(例如花哨的激活)。它在 ImageNet 上提供了 SOTA GPU 延遲和精度。

部署就緒

GPUNet 報(bào)告的延遲包括 TensorRT 發(fā)貨版本中可用的所有性能優(yōu)化,包括融合內(nèi)核、量化和其他優(yōu)化路徑。構(gòu)建的 GPune 已準(zhǔn)備好部署。

構(gòu)建 GPune :端到端 NAS 工作流

在高層次上,神經(jīng)架構(gòu)搜索( NAS ) AI 代理分為兩個(gè)階段:

根據(jù)推理延遲對(duì)所有可能的網(wǎng)絡(luò)架構(gòu)進(jìn)行分類(lèi)。

使用適合延遲預(yù)算的這些網(wǎng)絡(luò)的子集,并優(yōu)化其準(zhǔn)確性。

在第一階段,由于搜索空間是高維的,代理使用 Sobol 采樣來(lái)更均勻地分布候選。使用延遲查找表,然后將這些候選對(duì)象分類(lèi)到子搜索空間,例如, NVIDIA V100 GPU 上總延遲低于 0.5 毫秒的網(wǎng)絡(luò)子集。

此階段中使用的推斷延遲是一個(gè)近似成本,通過(guò)將延遲查找表中每個(gè)層的延遲相加來(lái)計(jì)算。延遲表使用輸入數(shù)據(jù)形狀和層配置作為鍵來(lái)查找查詢層上的相關(guān)延遲。

在第二階段,代理建立貝葉斯優(yōu)化損失函數(shù),以在子空間的延遲范圍內(nèi)找到性能最佳的高精度網(wǎng)絡(luò):

latex.php?latex=loss+%3D+CrossEntropy%28model+weights%29+%2B+%5Calpha+%2A+latency%28architecture+candidate%29%5E%7B%5Cbeta%7D&bg=ffffff&fg=000&s=0&c=20201002

poYBAGNE0ZWAfpN4AAZjlhzwduA410.png

圖 2. NVIDIA NAS AI 代理端到端工作流

AI 代理使用客戶端 – 服務(wù)器分布式訓(xùn)練控制器來(lái)跨多個(gè)網(wǎng)絡(luò)架構(gòu)同時(shí)執(zhí)行 NAS 。 AI 代理在一個(gè)服務(wù)器節(jié)點(diǎn)上運(yùn)行,提出并訓(xùn)練在集群上多個(gè)客戶端節(jié)點(diǎn)上運(yùn)行的網(wǎng)絡(luò)候選。

根據(jù)結(jié)果,只有滿足目標(biāo)硬件的準(zhǔn)確度和延遲目標(biāo)的有前途的網(wǎng)絡(luò)體系結(jié)構(gòu)候選者得到排名,從而產(chǎn)生了一些性能最佳的 GPUNET ,可以使用 TensorRT 部署在 NVIDIA GPU 上。

GPUNet 模型體系結(jié)構(gòu)

GPUNet 模型架構(gòu)是一個(gè)八級(jí)架構(gòu),使用 EfficientNet-V2 作為基線架構(gòu)。

搜索空間定義包括搜索以下變量:

操作類(lèi)型

跨步數(shù)

內(nèi)核大小

層數(shù)

激活函數(shù)

IRB 擴(kuò)展比

輸出通道濾波器

擠壓激勵(lì)( SE )

表 1 顯示了搜索空間中每個(gè)變量的值范圍。

pYYBAGNE0cyAb-dPAABepAmXNoQ430.png

前兩個(gè)階段使用卷積搜索磁頭配置。受 EfficientNet-V2 的啟發(fā),第二級(jí)和第三級(jí)使用融合 IRB 。然而,融合的 IRB 會(huì)導(dǎo)致更高的延遲,因此在第 4 至 7 階段,這些被 IRB 取代。

專(zhuān)欄層顯示階段中的層范圍。例如,階段 4 中的[1 , 10]表示該階段可以具有 1 到 10 個(gè) IRB 。專(zhuān)欄過(guò)濾器顯示階段中各層的輸出通道濾波器范圍。該搜索空間還調(diào)整 IRB /融合 IRB 內(nèi)部的擴(kuò)展比( ER )、激活類(lèi)型、內(nèi)核大小和壓縮激勵(lì)( SE )層。

最后,在步驟 32 ,從 224 到 512 搜索輸入圖像的尺寸。

來(lái)自搜索空間的每個(gè) GPUNet 候選構(gòu)建被編碼為 41 寬的整數(shù)向量(表 2 )。

poYBAGNE0d6AeAogAABY43CPSkc651.png

在 NAS 搜索結(jié)束時(shí),返回的排序候選是這些性能最佳的編碼的列表,這些編碼又是性能最佳的 GPUNET 。

總結(jié)

鼓勵(lì)所有 ML 從業(yè)人員閱讀 CVPR 2022 GPUNet 研究報(bào)告 ,并在 NVIDIA /深度學(xué)習(xí)示例 GitHub repo ,并在 協(xié)作實(shí)例 在可用云上 GPU 。 GPUNet 推理也可在 PyTorch hub colab 運(yùn)行實(shí)例使用 NGC 集線器上托管的 GPUNet 檢查點(diǎn)。這些檢查點(diǎn)具有不同的準(zhǔn)確性和延遲折衷,可以根據(jù)目標(biāo)應(yīng)用程序的要求應(yīng)用。

關(guān)于作者

Satish Salian 是 NVIDIA 的首席系統(tǒng)軟件工程師,為開(kāi)發(fā)人員利用 NVIDIA GPU 的能力構(gòu)建端到端技術(shù)和解決方案。他目前專(zhuān)注于神經(jīng)架構(gòu)搜索( NAS )方法,為 NVIDIA GPU 搜索高性能神經(jīng)架構(gòu)。

Carl (Izzy) Putterman 最近加入 NVIDIA ,擔(dān)任深度學(xué)習(xí)算法工程師。他畢業(yè)于加利福尼亞大學(xué),伯克利在應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。在 NVIDIA ,他目前致力于時(shí)間序列建模和圖形神經(jīng)網(wǎng)絡(luò),重點(diǎn)是推理。

Linnan Wang 是 NVIDIA 的高級(jí)深度學(xué)習(xí)工程師。 2021 ,他在布朗大學(xué)獲得博士學(xué)位。他的研究主題是神經(jīng)架構(gòu)搜索,他的 NAS 相關(guān)著作已在 ICML 、 NeurIPS 、 ICLR 、 CVPR 、 TPMAI 和 AAAI 上發(fā)表。在 NVIDIA , Lin Nan 繼續(xù)進(jìn)行 NAS 的研發(fā),并將 NAS 優(yōu)化模型交付給 NVIDIA 核心產(chǎn)品

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101039
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5075

    瀏覽量

    103527
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4768

    瀏覽量

    129216
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英特爾FPGA 助力Microsoft Azure機(jī)器學(xué)習(xí)提供AI推理性能

    Machine Learning SDK 相集成以供預(yù)覽。客戶可以使用 Azure 大規(guī)模部署的英特爾? FPGA(現(xiàn)場(chǎng)可編程邏輯門(mén)陣列)技術(shù),為其模型提供行業(yè)領(lǐng)先的人工智能 (AI) 推理性能
    的頭像 發(fā)表于 05-16 17:25 ?6410次閱讀

    NVIDIA擴(kuò)大AI推理性能領(lǐng)先優(yōu)勢(shì),首次Arm服務(wù)器取得佳績(jī)

    最新MLPerf基準(zhǔn)測(cè)試表明,NVIDIA已將其AI推理性能和能效方面的高標(biāo)準(zhǔn)擴(kuò)展到Arm以及x86計(jì)算機(jī)。
    發(fā)表于 09-23 14:18 ?2635次閱讀
    <b class='flag-5'>NVIDIA</b>擴(kuò)大AI<b class='flag-5'>推理性能</b>領(lǐng)先優(yōu)勢(shì),首次<b class='flag-5'>在</b>Arm服務(wù)器<b class='flag-5'>上</b>取得佳績(jī)

    NVIDIA打破AI推理性能記錄

     NVIDIA憑借A100進(jìn)一步擴(kuò)大了MLPerf基準(zhǔn)測(cè)試中的領(lǐng)先優(yōu)勢(shì),實(shí)現(xiàn)了比CPU快237倍的AI推理性能,助力企業(yè)將AI研究轉(zhuǎn)化為生產(chǎn)力。
    發(fā)表于 10-22 14:07 ?823次閱讀

    NVIDIA 首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩

    首個(gè)獨(dú)立AI推理基準(zhǔn)測(cè)試 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市場(chǎng)中最大、同時(shí)也是最具競(jìng)爭(zhēng)力的領(lǐng)域,業(yè)內(nèi)此前一直希望能夠有一套客觀的推理性能測(cè)試指標(biāo)。
    發(fā)表于 11-08 19:44

    Ubuntu使用Nvidia GPU訓(xùn)練模型

    問(wèn)題最近在Ubuntu使用Nvidia GPU訓(xùn)練模型的時(shí)候,沒(méi)有問(wèn)題,過(guò)一會(huì)再訓(xùn)練出現(xiàn)非常卡頓,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU
    發(fā)表于 01-03 08:24

    充分利用Arm NN進(jìn)行GPU推理

    的是要知道它提供的選項(xiàng)來(lái)提高推理性能。作為開(kāi)發(fā)人員,您會(huì)尋找可以壓縮的每一毫秒,尤其是需要實(shí)現(xiàn)實(shí)時(shí)推理時(shí)。讓我們看一下Arm NN中可用的優(yōu)化選項(xiàng)之一,并通過(guò)一些實(shí)際示例評(píng)估它可能產(chǎn)生
    發(fā)表于 04-11 17:33

    求助,為什么將不同的權(quán)重應(yīng)用于模型會(huì)影響推理性能

    生成兩個(gè) IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的類(lèi)似模型,以不同的 fps (27fps 和 6fps) 運(yùn)行 更多樣化的權(quán)重是否會(huì)影響 Myriad X 推理性能
    發(fā)表于 08-15 07:00

    如何提高YOLOv4模型的推理性能

    使用 PyTorch 對(duì)具有非方形圖像的 YOLOv4 模型進(jìn)行了訓(xùn)練。 將 權(quán)重轉(zhuǎn)換為 ONNX 文件,然后轉(zhuǎn)換為中間表示 (IR)。 無(wú)法確定如何獲得更好的推理性能
    發(fā)表于 08-15 06:58

    利用NVIDIA模型分析儀最大限度地提高深度學(xué)習(xí)的推理性能

    你已經(jīng)建立了你的深度學(xué)習(xí)推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。 你如何進(jìn)一步加快你的模型的運(yùn)行速度? 進(jìn)入 NVIDIA
    的頭像 發(fā)表于 10-21 19:01 ?668次閱讀

    NVIDIA A100 GPU推理性能237倍碾壓CPU

    )的12個(gè)提交者增加了近一倍。 結(jié)果顯示,今年5月NVIDIANvidia)發(fā)布的安培(Ampere)架構(gòu)A100 Tensor Core GPU云端
    的頭像 發(fā)表于 10-23 17:40 ?4380次閱讀
    <b class='flag-5'>NVIDIA</b> A100 <b class='flag-5'>GPU</b><b class='flag-5'>推理性能</b>237倍碾壓CPU

    NVIDIA GPU助力提升模型訓(xùn)練和推理性價(jià)比

    ,其中的模型數(shù)量達(dá)數(shù)千個(gè),日均調(diào)用服務(wù)達(dá)到千億級(jí)別。無(wú)量推薦系統(tǒng),模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算,是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。 傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn): 訓(xùn)練是
    的頭像 發(fā)表于 08-23 17:09 ?4848次閱讀

    NGC 玩轉(zhuǎn)新一代推理部署工具 FastDeploy,幾行代碼搞定 AI 部署

    模型,并提供開(kāi)箱即用的云邊端部署體驗(yàn),實(shí)現(xiàn) AI 模型端到端的推理性能優(yōu)化。 歡迎廣大開(kāi)發(fā)者使用 NVIDIA 與飛槳聯(lián)合深度適配的 NGC 飛槳容器, NVIDIA
    的頭像 發(fā)表于 12-13 19:50 ?1273次閱讀

    Nvidia 通過(guò)開(kāi)源庫(kù)提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過(guò)一個(gè)名為T(mén)ensorRT LLM的新開(kāi)源軟件庫(kù),將其H100、A100和L4 GPU的大型語(yǔ)言模型(LLM)推理性能提高了一倍。 正如對(duì)相同硬件一輪又一輪改進(jìn)
    的頭像 發(fā)表于 10-23 16:10 ?699次閱讀

    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    。 中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院賽西實(shí)驗(yàn)室依據(jù)國(guó)家標(biāo)準(zhǔn)《人工智能服務(wù)器系統(tǒng)性能測(cè)試規(guī)范》(征求意見(jiàn)稿)相關(guān)要求,使用AISBench?2.0測(cè)試工具,完成了第五代英特爾至強(qiáng)可擴(kuò)展處理器的AI大模型推理性能和精度測(cè)試。測(cè)試中,第五代英特爾至強(qiáng)
    的頭像 發(fā)表于 09-06 15:33 ?404次閱讀
    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術(shù) (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能
    的頭像 發(fā)表于 12-17 17:47 ?247次閱讀
    主站蜘蛛池模板: 免费高清毛片 | 国产91专区| 国语自产偷成人精品视频 | 高跟丝袜岳第一次 | jizzjizz3d动漫| 国产亚洲999精品AA片在线爽 | 午夜熟女插插XX免费视频 | av视频在线免播放观看 | 花蝴蝶免费观看影视 | 天天久久狠狠色综合 | 9位美女厕所撒尿11分 | 精品国产自在自线官方 | 伊人久久大香线蕉avapp下载 | 99精品视频在线观看免费 | 真实国产乱子伦精品一区二区三区 | 秋霞影音先锋一区二区 | 国产成人 免费观看 | 午夜DJ国产精华日本无码 | 免费无遮挡又黄又爽网站 | 欧美亚洲另类丝袜自拍动漫 | 用快播看av的网站 | 手机在线成人精品视频网 | 嫩草影院未满十八岁禁止入内 | 亚洲精品123区在线观看 | 久9青青cao精品视频在线 | 青青草 久久久 | 亚洲综合国产在不卡在线 | 久久综合给会久久狠狠狠 | 日本高清不卡一区久久精品 | 欲插爽乱浪伦骨 | free18sex性自拍裸舞 | 娇妻让壮男弄的流白浆 | 国产午夜不卡 | 日本特黄的免费大片视频 | 午夜免费福利片 | 女王黄金vk | 亚洲乱码爆乳精品成人毛片 | 免费可以看黄的视频s色 | 日美欧韩一区二去三区 | 国产一区二区精品视频 | 神马伦理2019影院不卡片 |