香蕉大美女天天做天天爱,手机看片国产自拍,亚洲第一区se

簡介：本次實測涵蓋圖像分類識別、圖像目標檢測、自然語言處理以及搜索推薦等四種常見的深度學習推理場景

近幾年，深度學習在視覺、自然語言處理、搜索廣告推薦等工業界的各個領域廣泛落地。深度學習模型參數量的指數級上升、以及新的業務對復雜模型的需求，都要求云廠商的彈性計算能夠降低算力成本、提高計算效率，尤其是深度學習的推理，將會成為優化的重點。在此因素影響下，阿里云平頭哥團隊推出了全球首個5nm 制程的 ARM Server 芯片倚天710。該芯片基于 ARM Neoverse N2 架構，支持最新的 ARMv9 指令集，其中包括 i8mm，bf16等擴展指令集，能在科學/AI計算領域獲得性能優勢。

在本文中，我們聚焦于采用倚天710芯片的 ECS倚天實例g8y，對深度學習推理任務的性能進行了測試和比較。

01 Workloads

本次分析，我們選擇了四種常見的深度學習推理場景，涵蓋圖像分類識別、圖像目標檢測、自然語言處理以及搜索推薦領域。所使用的代表性模型如下：

Area	Task	Model
Vision	Image Classification	Resnet50-v1.5 and VGG19
Vision	Object Detection	SSD-Resnet34
Language	Natural Language Processing	BERT-Large
Recommendation	Click-Through Rate Prediction	DIN

02 Platforms

實例類型

我們在阿里云兩種實例類型上進行測試，分別是ECS g8y(倚天710) 和 ECS g7(Ice Lake)，實例均為 8-vCPU。

Deep Learning Framework

在所有平臺，我們使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 設備上，TensorFlow 支持兩種后端，我們使用 OneDNN 后端。OneDNN 是一個開源的跨平臺深度學習庫，并且能夠集成 Arm Compute Library（Arm設備的機器學習計算庫）。在 Arm 設備上使用該后端能夠取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是實驗版本，因此在 PyTorch 框架上使用默認的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一種浮點數表示形式，其指數位與單精度浮點數（IEEE FP32）保持一致，但是小數位只有 7 位，因此 BF16 的表示范圍與 FP32 幾乎一致，但是精度較低。BF16 非常適合深度學習，因為通常精度下降并不會顯著降低模型的預測精度，但是16位的數據格式卻能夠節省空間、加速計算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令，大幅提升了深度學習模型的推理性能，在多個場景下跑出了比 g7 更優秀的數據。此外，倚天 710 作為自研芯片，相比 g7 最大有 30% 的價格優勢。

下面四幅圖分別是 Resnet50，SSD，BERT 和 DIN 模型下的對比結果，其中，Resnet，SSD 和 BERT 都來自 MLPerf Inference Benchmark 項目，DIN 是 alibaba 提出的點擊率預測模型。藍色柱狀條是直接性能對比，橙色柱狀條是考慮了單位價格的性能對比，例如在 Resnet50 上，g8y 的性能是 g7 的 1.43倍，單位價格的性能是 g7 的 2.05 倍。

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能對比圖

說明：此處設置 Batch Size = 32，測試圖像尺寸為 224 * 224

Figure 2: SSD 性能對比圖

說明：此處 Batch Size = 1，測試圖像尺寸為1200 * 1200

Figure 3: BERT 性能對比圖

Figure 4: DIN 性能對比圖

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是實驗性質，因此本次實驗采用默認的 OpenBLAS 后端。OpenBLAS 是一個開源的線性代數庫，我們為其添加了針對 Arm Neoverse N2 的 BFloat16 矩陣乘法計算的優化實現。

OpenBLAS BFloat16 矩陣乘法優化

矩陣乘法和深度學習存在非常緊密的關系，例如深度學習中常見的 Fully Connected Layer，Convolutional Layer等，最終是被轉換成矩陣乘法實現的。因此，加速矩陣乘法最終能加速模型的計算。

OpenBLAS 是一個廣泛使用的計算庫，默認作為 Numpy，PyTorch 等庫的后端，我們在調研中發現該庫不支持倚天 710 的 bf16 指令擴展，在和社區交流后，我們決定利用倚天 710 支持的 BFMMLA 等向量指令實現支持 bf16 數據格式的矩陣乘法，實現后性能的到大幅提升，性能對比如圖 5 所示。該實現目前已經貢獻給開源社區，OpenBLAS 的最新版本 0.3.21 也已經合入。

Figure5: OpenBLAS 矩陣乘法性能對比

說明：參與運算的矩陣的行數和列數均為 1000。

PyTorch CNN Performance

OpenBLAS 作為 PyTorch 的默認后端，在矩陣乘法上的優化可以體現在 PyTorch 實現的深度學習模型中，我們以卷積計算占比較高的模型 VGG19 為例，該模型推理時，所有的卷積算子會被轉換為矩陣乘法，并調用 OpenBLAS 完成計算。下圖是 VGG 19 的性能對比：

Figure 6: VGG19性能對比圖

05 結論

本文的分析顯示，在阿里云倚天實例g8y上，多個深度學習模型的推理性能高于同規格 g7，這主要得益于 Arm Neoverse N2 的新指令以及不斷更新的軟件支持（OneDNN、ACL 和 OpenBLAS）。在這個過程中，阿里云編譯器團隊貢獻了一部分軟件優化，后續我們將繼續關注該領域的軟硬件優化，提高 Arm 系列實例在 ML/AI 方面的競爭力。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

芯片

芯片

+關注

關注
456

文章
50892

瀏覽量
424341
ARM

ARM

+關注

關注
134

文章
9104

瀏覽量
367870
深度學習

深度學習

+關注

關注
73

文章
5504

瀏覽量
121246

原文標題：性能最高提升50％，ECS倚天實例深度學習推理性能實測

文章出處：【微信號：Arm軟件開發者，微信公眾號：Arm軟件開發者】歡迎添加關注！文章轉載請注明出處。

云服務器 Flexus X 實例，鏡像切換與服務器壓力測試

云服務器 Flexus X 壓力測試 1、購買華為云 Flexus X 實例 Flexus云服務器X實例

發表于 01-03 09:23 ?78次閱讀

華為云 X 實例 CPU 性能測試詳解與優化策略

引言 ? 1. 測試環境搭建 ? 1.1 測試實例的選擇 ? 1.2 CPU性能測試工具介紹 ? 1.3 安裝和配置Sysbench ? 2

發表于 12-30 14:52 ?89次閱讀

使用 Memtester 對華為云 X 實例進行內存性能測試

前言 ? 1 華為云X實例介紹 ? 2 Memtester 簡介 ? 2.1 什么是Memtester ? 2.2 安裝 Memtester ? 3 測試方案設計 ? 3.1 測試目標

發表于 12-30 14:52 ?73次閱讀

華為云 Flexus X 實例 MySQL 性能加速評測及對比

X 實例加速 MySQL 測試 7 3.1 sysbench 簡介 8 3.2?Flexus 云服務器 X 實例安裝 sysbench

發表于 12-25 17:10 ?175次閱讀

Flexus X 實例 CPU、內存及磁盤性能實測與分析

的網絡帶寬支持。最近華為云 828 B2B 企業節正在舉辦，Flexus X 實例的促銷也非常給力，大家可以去看看。為了幫助用戶更好地了解其性能表現，我們通過一系列詳盡的測試，對 Fl

發表于 12-24 17:35 ?174次閱讀

阿里云開源推理大模型QwQ

近日，阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview，并同步實現了開源。這一舉措標志著阿里云在AI

發表于 11-29 11:30 ?571次閱讀

基于哪吒開發板部署YOLOv8模型

開發板的推理性能，同時測試所推出的 OpenVINO C# API (https://github.com/guojin-yan/OpenVINO-CSharp-API) 項目能否應用到該開發板上，我們使用該開發板，結合 OpenVINO C# API 的異步

發表于 11-15 14:13 ?282次閱讀

開箱即用，AISBench測試展示英特爾至強處理器的卓越推理性能

近期，第五代英特爾?至強?可擴展處理器通過了中國電子技術標準化研究院組織的人工智能服務器系統性能測試（AISBench）。英特爾成為首批通過AISBench大語言模型（LLM）推理性能測試

發表于 09-06 15:33 ?354次閱讀

TensorFlow與PyTorch深度學習框架的比較與選擇

學習框架，它們各自擁有獨特的特點和優勢。本文將從背景介紹、核心特性、操作步驟、性能對比以及選擇指南等方面對TensorFlow和PyTorch進行詳細比較，以幫助讀者了解這兩個框架的優

發表于 07-02 14:04 ?982次閱讀

學習筆記|如何移植NCNN

隊的步伐，揭秘他們如何進行NCNN的交叉編譯，并在ELF1開發板上演繹實踐，以此驗證模型推理性能。1、從GitHub下載NCNN源碼：https://github.c

發表于 05-29 10:06 ?1125次閱讀

飛天技術沙龍回顧：業務創新新選擇，倚天Arm架構深入探討

日前，飛天技術沙龍《業務創新新選擇，倚天Arm架構深入探索》在上海成功舉行。來自阿里云、平頭哥及Arm的專家為現場觀眾深入解讀了Arm架構的核心優勢，并重點分享了基于倚天710的計算

發表于 05-21 16:48 ?590次閱讀

阿里云倚天710服務器處理器速度超至強

4 月 30 日資訊，電氣和電子工程師協會（IEEE）發布的《Transactions on Cloud Computing》雜志顯示，阿里云的倚天 710 處理器在 2021 年度被評為處理超級規模

發表于 04-30 16:22 ?660次閱讀

UL Procyon AI 發布圖像生成基準測試，基于Stable Diffusion

UL去年發布的首個Windows版Procyon AI推理基準測試，以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統一、精確且易于理解的工作負載，用以保證各支持硬件間

發表于 03-25 16:16 ?898次閱讀

阿里云第八代企業級實例g8i搭載第五代英特爾至強可擴展處理器

+CIPU」架構體系，ECS g8i 實例的整機性能最高提升 85%*，AI 推理性能最高提升 7 倍*，可支撐高達 72B 參數的大語言模型，幫助中小規模模型起建成本降低 50%*。

發表于 01-15 11:28 ?962次閱讀

Torch TensorRT是一個優化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我們大家聚在一起的原因，它是一個端到端的機器學習框架。而TensorRT則是NVIDIA的高性能深度學習

發表于 01-09 16:41 ?1773次閱讀