五月天色小说,午夜精品视频,星空传媒xk8012在线播放

眾所周知，GPU 在各種視覺、自然語言和多模態(tài)模型推理任務(wù)中都占據(jù)重要位置。然而，對于高性能 GPU 推理引擎，AI 從業(yè)者幾乎沒有選擇權(quán)，必須使用一些平臺專有的黑盒系統(tǒng)。這意味著如果要切換 GPU 供應(yīng)商，就必須重新實現(xiàn)一遍部署系統(tǒng)。在生產(chǎn)環(huán)境中當(dāng)涉及復(fù)雜的依賴狀況時，這種靈活性的缺失使維護迭代成本變得更加高昂。

在 AI 產(chǎn)品落地過程中，經(jīng)常需要模型快速迭代。盡管一些閉源系統(tǒng)（如 TensorRT）提供了一些定制化功能，但這些定制化功能完全不能滿足需求。更進一步來說，這些閉源專有的解決方案，會使 debug 更加困難，對開發(fā)敏捷性造成影響。

針對這些業(yè)界難題，Meta AI 開發(fā)了擁有 NVIDIA GPU 和 AMD GPU 后端的統(tǒng)一推理引擎——AITemplate。

AITemplate 在 CNN、Transformer 和 Diffusion 模型上都能提供接近硬件上限的 TensorCore (NVIDIA GPU) 和 MatrixCore (AMD GPU) 性能。使用 AITemplate 后，在 NVIDIA GPU 上對比 PyTorch Eager 的提速最高能達到 12 倍，在 AMD GPU 上對比 PyTorch Eager 的提速達到 4 倍。

這意味著，當(dāng)應(yīng)用于超大規(guī)模集群時，AITemplate 能夠節(jié)約的成本數(shù)額將是驚人的。

具體而言，AITemplate 是一個能把 AI 模型轉(zhuǎn)換成高性能 C++ GPU 模板代碼的 Python 框架。該框架在設(shè)計上專注于性能和簡化系統(tǒng)。AITemplate 系統(tǒng)一共分為兩層：前段部分進行圖優(yōu)化，后端部分針對目標 GPU 生成 C++ 模板代碼。AITemplate 不依賴任何額外的庫或 Runtime，如 cuBLAS、cudnn、rocBLAS、MIOpen、TensorRT、MIGraphX 等。任何 AITemplate 編譯的模型都是自洽的。

AITemplate 中提供了大量性能提升創(chuàng)新，包括更先進的 GPU Kernel fusion，和一些專門針對 Transformer 的先進優(yōu)化。這些優(yōu)化極大提升了 NVIDIA TensorCore 和 AMD MatrixCore 的利用率。

目前，AITemplate 支持 NVIDIA A100 和 MI-200 系列 GPU，兩種 GPU 都被廣泛應(yīng)用在科技公司、研究實驗室和云計算提供商的數(shù)據(jù)中心。

團隊對 AITemplate 進行了一系列測試。下圖的測試展示了 AITemplate 和 PyTorch Eager 在 NVIDIA A100 上的主流模型中的加速比。

在帶有 Cuda 11.6 的 Nvidia A100 上運行 BERT 和 ResNet-50，AITemplate 在 ResNet-50 中提供了 3 到 12 倍的加速，在 BERT 上提供了 2 到 5 倍的加速。

經(jīng)測試，AITemplate 在 AMD MI250 GPU 上較 PyTorch Eager 也有較大的加速比。

使用 ROCm 5.2 和 MI250 加速器，ResNet-50 和 BERT 的加速在 1.5-2 倍范圍內(nèi)。

AITemplate 的統(tǒng)一 GPU 后端支持，讓深度學(xué)習(xí)開發(fā)者在最小開銷的情況下，擁有了更多的硬件提供商選擇。下圖直觀展示了 AITemplate 在 NVIDIA A100 GPU 和 AMD MI250 GPU 上的加速對比：

此外，AITemaplte 的部署較其他方案也更為簡潔。由于 AI 模型被編譯成了自洽的二進制文件并且不存在任何第三方庫的依賴，任何被編譯的二進制文件都能在相同硬件、CUDA 11/ ROCm 5 或者更新的軟件環(huán)境中運行，也不用擔(dān)心任何后向兼容問題。AITemplate 提供了開箱即用的模型樣例，如 Vision Transformer、BERT、Stable Diffusion、ResNet 和 MaskRCNN，使得部署 PyTorch 模型更加簡單。

AITemplate 的優(yōu)化

AITemplate 提供了目前最先進的 GPU Kernel 融合技術(shù)：支持縱向、水平和內(nèi)存融合為一體的多維融合技術(shù)。縱向融合將同一條鏈上的操作進行融合；水平融合將并行無依賴的操作進行融合；內(nèi)存融合把所有內(nèi)存移動操作和計算密集算子進行融合。

在水平融合中，AITemplate 目前可以把不同輸入形狀的矩陣乘法 (GEMM)、矩陣乘法和激活函數(shù)，以及 LayerNorm、LayerNorm 和激活函數(shù)進行融合。

在縱向融合中，AITemplate 支持超過傳統(tǒng)標準的 Elementwise 融合，包括：

通過 CUTLASS 和 Composable Kernel 支持了矩陣和 Elementwise 算子融合；

為 Transformer 的 Multi-head Attention 提供了矩陣乘法和內(nèi)存布局轉(zhuǎn)置融合；

通過張量訪問器對內(nèi)存操作，如 split、slice、concatenate 等進行融合來消除內(nèi)存搬運。

在標準的 Transformer Multi head attention 模塊，目前 AITemplate 在 CUDA 平臺使用了 Flash Attention，在 AMD 平臺上使用了 Composable Kernel 提供的通用背靠背矩陣乘法融合。兩種解決方案都能大幅減小內(nèi)存帶寬需求，在長序列問題中，提升更為明顯。如下圖所示：

AITemplate 與 Composable Kernel 的廣義背靠背融合顯著提高了長序列 Transformer 的推理效率。在 batch size 為 1 時，使用 AITemplate 的兩張 GPU 均比原生框架加速了 80%。

開發(fā) AITemplate

AITemplate 有兩層模版系統(tǒng)：第一層在 Python 中使用 Jinja2 模板，第二層在 GPU TensorCore/MatrixCore 中使用 C++ 模板（NVIDIA GPU 上使用 CUTLASS，AMD GPU 上使用 Composable Kernel）。AITemplate 在 Python 中找到性能最優(yōu)的 GPU 模板參數(shù)，再通過 Jinja2 渲染出最終的 C++ 代碼。

在代碼生成后，就能使用 GPU C++ 編譯器（NVIDIA 平臺上的 NVCC 和 AMD 平臺上的 HIPCC）編譯出最終的二進制代碼。AITemplate 提供了一套類似于 PyTorch 的前端，方便用戶直接將模型轉(zhuǎn)換到 AITemplate 而不是通過多層 IR 轉(zhuǎn)換。

總體來看，AITemplate 對當(dāng)前一代及下一代 NVIDIA GPU 和 AMD GPU 提供了 SOTA 性能并大幅簡化了系統(tǒng)復(fù)雜度。

Meta 表示，這只是創(chuàng)建高性能多平臺推理引擎旅程的開始：「我們正在積極擴展 AITemplate 的完全動態(tài)輸入支持。我們也有計劃推廣 AITemplate 到其他平臺，例如 Apple 的 M 系列 GPU，以及來自其他供應(yīng)商的 CPU 等等。」

此外，AITemplate 團隊也正在開發(fā)自動 PyTorch 模型轉(zhuǎn)換系統(tǒng)，使其成為開箱即用的 PyTorch 部署方案。「AITemplate 對支持 ONNX 和 Open-XLA 也持開放態(tài)度。我們希望能構(gòu)建一個更為綠色高效的 AI 推理系統(tǒng)，能擁有更高的性能，更強的靈活性和更多的后端選擇。」團隊表示。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4768

瀏覽量
129232
AI

AI

+關(guān)注

關(guān)注
87

文章
31490

瀏覽量
269929

原文標題：推理速度數(shù)倍提升，大幅簡化多GPU后端部署：Meta發(fā)布全新推理引擎AITemplate

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

Meta發(fā)布新AI模型Meta Motivo，旨在提升元宇宙體驗

Meta在人工智能領(lǐng)域邁出了重要一步。通過這款模型，Meta希望能夠為用戶提供更加自然、流暢的元宇宙交互體驗。數(shù)字代理在元宇宙中的動作將更加逼真，從而增強用戶的沉浸感和參與度。除了Meta Motivo，

發(fā)表于 12-16 10:34 ?450次閱讀

詳解MySQL多實例部署

發(fā)表于 11-11 11:10 ?313次閱讀

Arm推出GitHub平臺AI工具，簡化開發(fā)者AI應(yīng)用開發(fā)部署流程

軟件提供了無縫的開發(fā)體驗。 GitHub Actions、原生 GitHub 運行器和基于 Arm 平臺的 AI 框架相結(jié)合，幫助全球 2,000 萬開發(fā)者簡化 AI 應(yīng)用開發(fā)部署

發(fā)表于 10-31 18:51 ?2853次閱讀

Meta開發(fā)新搜索引擎，減少對谷歌和必應(yīng)的依賴

近日，Meta正在積極進軍人工智能領(lǐng)域，并試圖跟上OpenAI的發(fā)展步伐。為實現(xiàn)這一目標，Meta正在開發(fā)一款全新的搜索引擎，該搜索引擎具備網(wǎng)絡(luò)爬蟲功能，能夠為用戶提供有關(guān)時事的對話答案，而這些答案

發(fā)表于 10-29 11:49 ?437次閱讀

亞馬遜云科技上線Meta Llama 3.2模型

亞馬遜云科技近日宣布，Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態(tài)模型，現(xiàn)已在Amazon Bedrock和Amazon SageMaker中全面可用。

發(fā)表于 10-11 18:08 ?486次閱讀

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實現(xiàn)了對圖像內(nèi)容的精準理解，標志著Meta在AI

發(fā)表于 09-27 11:44 ?434次閱讀

Meta不會在歐盟提供新的多模態(tài)AI模型

科技巨頭Meta近日宣布了一項重要決策，其即將推出的創(chuàng)新多模態(tài)Llama模型將不會在歐盟地區(qū)發(fā)布。這一決定背后，是Meta對歐洲復(fù)雜且不可預(yù)測的監(jiān)管環(huán)境的深刻考量，也為Meta與歐盟監(jiān)

發(fā)表于 07-19 16:04 ?531次閱讀

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新開源大語言模型采用 NVIDIA 技術(shù)構(gòu)建，其經(jīng)過優(yōu)化后可在云、數(shù)據(jù)中心、邊緣和 PC 的 NVIDIA GPU 上運行。

發(fā)表于 04-23 09:52 ?503次閱讀

高通與Meta合作優(yōu)化Meta Llama 3，實現(xiàn)終端側(cè)運行

高通技術(shù)公司高級副總裁兼技術(shù)規(guī)劃和邊緣解決方案業(yè)務(wù)總經(jīng)理馬德嘉表示：“我們對Meta開放Meta Llama 3的策略表示贊賞，高通與Meta均致力于賦能開發(fā)者，推動AI創(chuàng)新。

發(fā)表于 04-22 09:51 ?495次閱讀

Meta第二代自研AI芯片出世，性能提升三倍以上

電子發(fā)燒友網(wǎng)報道（文/周凱揚）不久前，Meta宣布將花費150億美元，購置60多萬塊GPU，而這還沒算上系統(tǒng)成本。就當(dāng)大家以為Meta打算All In

發(fā)表于 04-15 09:25 ?2268次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

現(xiàn)場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學(xué)習(xí)模型時面臨的許多問題在過去的十年里，人工智能的再一次興起使顯卡行業(yè)受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅

發(fā)表于 03-21 15:19

模擬后端是什么意思

模擬后端，在軟件開發(fā)和測試領(lǐng)域，通常是指使用工具或技術(shù)來模擬實際后端服務(wù)的行為。這樣做的主要目的是在項目開發(fā)過程中，當(dāng)后端服務(wù)還未就緒或暫時

發(fā)表于 03-15 15:58 ?719次閱讀

Meta將于今年在數(shù)據(jù)中心部署新款定制AI芯片

Meta近日宣布，計劃于2024年在其數(shù)據(jù)中心部署新款內(nèi)部定制的AI芯片。這款芯片將用于支持Meta的人工智能業(yè)務(wù)，進一步提升數(shù)據(jù)處理和運算效率。

發(fā)表于 02-04 10:17 ?796次閱讀

Meta計劃今年部署自研定制芯片，以加速AI研發(fā)

Meta公司近日宣布計劃在今年內(nèi)為其數(shù)據(jù)中心部署一款自研定制芯片，以支持其人工智能（AI）的研發(fā)工作。這一舉措旨在提高Meta在AI領(lǐng)域的競爭力，并加速其技術(shù)發(fā)展。

發(fā)表于 02-03 10:48 ?692次閱讀

java后端能轉(zhuǎn)鴻蒙app開發(fā)嗎

java后端轉(zhuǎn)鴻蒙app開發(fā)好。還是前端呢

發(fā)表于 01-29 18:15

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Meta開發(fā)AITemplate，大幅簡化多GPU后端部署

評論

Meta發(fā)布新AI模型Meta Motivo，旨在提升元宇宙體驗

詳解MySQL多實例部署

Arm推出GitHub平臺AI工具，簡化開發(fā)者AI應(yīng)用開發(fā)部署流程

Meta開發(fā)新搜索引擎，減少對谷歌和必應(yīng)的依賴

亞馬遜云科技上線Meta Llama 3.2模型

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta不會在歐盟提供新的多模態(tài)AI模型

NVIDIA全面加快Meta Llama 3的推理速度

高通與Meta合作優(yōu)化Meta Llama 3，實現(xiàn)終端側(cè)運行

Meta第二代自研AI芯片出世，性能提升三倍以上

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

模擬后端是什么意思

Meta將于今年在數(shù)據(jù)中心部署新款定制AI芯片

Meta計劃今年部署自研定制芯片，以加速AI研發(fā)

java后端能轉(zhuǎn)鴻蒙app開發(fā)嗎