在舊金山的一個 AI 會議上, NVIDIA 發布了 Jetson TX2 和 Jetpack3 。 0AI SDK 。 Jetson 是世界領先的低功耗嵌入式平臺,為所有邊緣設備提供服務器級 AI 計算性能。 Jetson TX2 具有集成的 256 核 NVIDIA Pascal GPU 、十六進制內核 ARMv8 64 位 CPU 復合體和 8GB LPDDR4 內存和 128 位接口。 CPU 復合物結合了雙核心的丹佛 2 號和四核臂 Cortex-A57 。圖 1 所示的 Jetson TX2 模塊適合于 50 x 87 毫米、 85 克和 7 。 5 瓦的小尺寸、重量和功率(交換)占用空間。
物聯網( IoT )設備通常充當簡單的中繼數據網關。他們依靠云連接來完成繁重的工作和數字運算。邊緣計算是一種新興的范式,它使用本地計算來實現數據源的分析。 TX2 具有超過 TFLOP / s 的性能,非常適合將高級人工智能部署到互聯網連接較差或昂貴的遠程現場。 Jetson TX2 還為需要任務關鍵型自治的智能機器提供近實時響應和最小延遲密鑰。
Jetson TX2 基于 16nm NVIDIA Tegra “ Parker ”系統片上系統( SoC )(圖 2 顯示了一個框圖)。 Jetson TX2 在深度學習推理方面的能效是其前代產品 Jetson TX1 的兩倍,并提供比 Intel Xeon 服務器 CPU 更高的性能。效率的提高重新定義了將先進的人工智能從云端擴展到邊緣的可能性。
圖 2 : NVIDIA Jetson TX2 Tegra “ Parker ” SoC 框圖,具有集成的 NVIDIA Pascal GPU 、 NVIDIA Denver 2 + Arm Cortex-A57 CPU 集群和多媒體加速引擎(點擊圖片獲取完整分辨率)。
Jetson TX2 有多個多媒體流引擎,通過減輕傳感器采集和分發的負擔,使其 Pascal GPU 能夠獲得數據。這些多媒體引擎包括六個專用的 MIPI CSI-2 攝像頭端口,每通道提供高達 2 。 5gb / s 的帶寬和 1 。 4gb / s 的雙圖像服務處理器( ISP )處理,以及支持 H 。 265 、每秒 4k60 幀的視頻編解碼器。
Jetson TX2 使用 NVIDIA cuDNN 和 TensorRT 庫加速尖端深度神經網絡( DNN )架構,并支持 遞歸神經網絡 、 長短期記憶網絡 和在線 強化學習 。它的雙 CAN 總線控制器使自動駕駛儀集成到控制機器人和無人機,這些機器人和無人機使用 DNN 感知周圍的世界,并在動態環境中安全運行。 Jetson TX2 的軟件通過 NVIDIA 的 噴氣背包 3 。 0 和 Linux for Tegra ( L4T ) Board Support Package ( BSP )提供。
表 1 比較了 Jetson TX2 與上一代 Jetson TX1 的特性。
兩倍的性能,兩倍的效率
在我的 在 JetPack 2 。 3 上發布 中,我演示了 NVIDIA TensorRT 如何提高 Jetson TX1 深度學習推理性能,效率比桌面類 CPU 高 18 倍。 TensorRT 通過使用 graph 優化、內核融合、 半精度浮點計算( FP16 ) 和架構自動調整來優化生產網絡以顯著提高性能。除了利用 Jetson TX2 對 FP16 的硬件支持之外, NVIDIA TensorRT 還能夠批量同時處理多個圖像,從而獲得更高的性能。
Jetson TX2 和 JetPack 3 。 0 將 Jetson 平臺的性能和效率提升到一個全新的水平,為用戶提供了在 AI 應用中獲得兩倍或最多兩倍于 Jetson TX1 性能的選項。這種獨特的功能使 Jetson TX2 成為邊緣需要高效人工智能的產品和邊緣附近需要高性能的產品的理想選擇。 Jetson TX2 還與 Jetson TX1 兼容,為使用 Jetson TX1 設計的產品提供了一個簡單的升級機會。
為了測試 Jetson TX2 和 JetPack 3 。 0 的性能,我們將其與服務器類 CPU 、 Intel Xeon E5-2690 v4 進行比較,并使用 GoogLeNet 深度圖像識別網絡測量深度學習推理吞吐量(每秒圖像數)。如圖 3 所示, Jetson TX2 在低于 15W 的功率下運行的性能優于在接近 200W 的情況下運行的 CPU ,從而使數據中心級的 AI 能力處于邊緣。
圖 3 : GoogLeNet 網絡架構在 NVIDIA Jetson TX2 和 Intel Xeon E5-2960 v4 上的性能。
Jetson TX2 的卓越 AI 性能和效率源于新的 Pascal GPU 架構和動態能量配置文件( Max-Q 和 Max-P )、 JetPack 3 。 0 附帶的優化深度學習庫以及大內存帶寬的可用性。
Max-Q 和 Max-P
Jetson TX2 設計用于 7 。 5W 功率下的峰值處理效率。這一性能水平被稱為 Max-Q ,代表功率/吞吐量曲線的峰值。模塊上的每個組件(包括電源)都經過優化,以提供最高的效率。 GPU 的最大 Q 頻率為 854 MHz ,而 Arm A57 CPU 的最大 Q 頻率為 1 。 2 GHz 。 JetPack 3 。 0 中的 L4T BSP 包括用于將 Jetson TX2 設置為 Max-Q 模式的預設平臺配置。 Jetpack3 。 0 還包括一個名為 nvpmodel 的新命令行工具,用于在運行時切換配置文件。
雖然動態電壓和頻率縮放( DVFS )允許 Jetson TX2 的 Tegra “ Parker ” SoC 在運行時根據用戶負載和功耗調整時鐘速度,但 Max-Q 配置設置了時鐘上限,以確保應用程序僅在最有效的范圍內運行。表 2 顯示了在運行 GoogLeNet 和 AlexNet 深度學習基準測試時, Jetson TX2 和 Jetson TX1 的性能和能效。在 Max-Q 模式下運行的 Jetson TX2 的性能與在最大時鐘頻率下運行的 Jetson TX1 的性能相似,但只消耗一半的功率,因此能量效率提高了一倍。
盡管功率預算有限的大多數平臺將從 Max-Q 行為中受益最大,但其他平臺可能更喜歡使用最大時鐘來達到峰值吞吐量,盡管這樣做會導致更高的功耗和更低的效率。 DVFS 可以配置為在其他時鐘速度范圍內運行,包括欠時鐘和超頻。 Max-P 是另一種預設平臺配置,可在不到 15W 的時間內實現最大系統性能。啟用 Arm A57 群集或啟用丹佛 2 群集時, GPU 的 Max-P 頻率為 1122 MHz , CPU 的 Max-P 頻率為 2 GHz ,當兩個群集都啟用時, Max-P 頻率為 1 。 4 GHz 。您還可以創建具有中頻目標的自定義平臺配置,以便在應用程序的峰值效率和峰值性能之間實現平衡。下表 2 顯示了從 Max-Q 到 Max-P 的性能如何提高,以及如何在效率逐漸降低的情況下提高 GPU 時鐘頻率。
Jetson TX2 執行 GoogLeNet 推理的速度高達 33 。 2 圖像/秒/瓦,幾乎是 Jetson TX1 的兩倍,效率比 Intel Xeon 高出近 20 倍。
端到端人工智能應用
兩個 Pascal 流式多處理器( SMs )是 Jetson TX2 高效性能的重要組成部分,每個處理器有 128 個 CUDA 核。 Pascal GPU 架構 提供了重大的性能改進和電源優化。 TX2 的 CPU 復合體包括雙核 7 路超標量 NVIDIA Denver 2 ,用于動態代碼優化的高單線程性能,以及用于多線程處理的四核 Arm Cortex-A57 。
相干的丹佛 2 和 A57 CPU 都有一個 2MB 的二級緩存,并通過由 NVIDIA 設計的高性能互連結構進行連接,以在異構多處理器( HMP )環境中實現兩個 CPU 的同時操作。一致性機制允許根據動態性能需求自由地對任務進行 MIG 評級,以減少開銷的方式有效地利用 CPU 核心之間的資源。
Jetson TX2 是自主機端到端 AI 管線的理想平臺。 Jetson 有線傳輸實時高帶寬數據:在處理 GPU 數據后,可同時接收多個傳感器的數據,執行媒體解碼/編碼、組網和低級命令控制協議。圖 4 顯示了使用高速接口陣列(包括 CSI 、 PCIe 、 USB3 和千兆以太網)連接傳感器的常見管道配置。 CUDA 預處理和后處理階段通常包括色域轉換(成像 DNN 通常使用 BGR 平面格式)和對網絡輸出的統計分析。
圖 4 :端到端人工智能管道,包括傳感器采集、處理、指揮和控制。
由于內存和帶寬是 Jetson TX1 的兩倍, Jetson TX2 能夠同時捕獲和處理額外的高帶寬數據流,包括立體攝像機和 4K 超高清輸入和輸出。通過管道,深度學習和計算機視覺將來自不同來源和光譜域的多個傳感器融合在一起,從而增強了自動導航期間的感知能力和態勢感知能力。
Jetson TX2 開發工具包入門
首先, NVIDIA 為 Jetson TX2 開發工具包 提供了一個參考的小型 ITX 載體板( 170 毫米 x 170 毫米)和一個 500 萬像素的 MIPI CSI-2 相機模塊。開發工具包包括文檔和設計示意圖以及 JetPack-L4T 的免費軟件更新。圖 5 顯示了開發工具包,顯示了 Jetson TX2 模塊和標準 PC 連接,包括 USB3 、 HDMI 、 RJ45 千兆以太網、 SD 卡和 PCIe x4 插槽,這使得 Jetson 的應用程序開發更加容易。
要超越開發到定制部署平臺,您可以修改開發工具包載體板和相機模塊的參考設計文件,以創建自定義設計。或者, Jetson 生態系統合作伙伴為部署 Jetson TX1 和 Jetson TX2 模塊提供現成的解決方案,包括微型載體、外殼和攝像頭。 NVIDIA Developer Forums 為 Jetson 建造者和 NVIDIA 工程師社區提供技術支持和協作之家。表 3 列出了主要文件和有用的資源。
Jetson TX2 開發工具包可通過 NVIDIA 在線商店 以 599 美元的價格預訂。 3 月 14 日開始在北美和歐洲發貨,其他地區也將陸續發貨。 Jetson TX2 教育折扣 還提供: 299 美元用于學術機構的附屬機構。 NVIDIA 已將 Jetson TX1 開發工具包的價格降至 499 美元。
JetPack 3 。 0 SDK 開發包
最新的 NVIDIA JetPack 3.0 支持 Jetson TX2 使用業界領先的 AI 開發工具和硬件加速 API(見表4),包括 NVIDIA CUDA 工具包版本8.0、cuDNN、TensorRT、VisionWorks、GStreamer 和 OpenCV,這些都是在 Linux 內核v4.4、L4T R27.1 BSP 和 Ubuntu 16.04 LTS 的基礎上構建的。Jetpack3.0 包括用于交互式分析和調試的Tegra系統探查器和Tegra圖形調試器工具。Tegra多媒體API包括低級攝像頭捕獲和Video4Linux2(V4L2)編解碼器接口。在閃爍的同時,JetPack會自動使用所選的軟件組件配置Jetson TX2,從而實現開箱即用的完整環境
Jetson 是一個高性能的嵌入式解決方案,用于部署 Caffe 、 Torch 、 Theano 和 TensorFlow 等深度學習框架。這些和許多其他深度學習框架已經將 NVIDIA 的 cuDNN 庫與 GPU 加速集成在一起,并且只需要很少的 MIG 定量工作就可以在 Jetson 上部署。 KZV3 的軟件和應用程序通常在云計算中心和服務器上無縫部署[KZV3]軟件和應用程序。
還有兩天就要演示了
NVIDIA Two Days to a Demo 是一個幫助任何人開始部署深度學習的倡議。 NVIDIA 提供計算機視覺原語,包括圖像識別、目標檢測+定位和分割,以及用 DIGITS 訓練的 神經網絡 模型。您可以將這些網絡模型部署到 Jetson 上,以便使用 NVIDIA TensorRT 進行有效的深度學習推斷。“兩天一個演示”提供了示例流式應用程序,以幫助您體驗實時攝像頭提要和真實世界的數據。
兩天的演示代碼是 在 GitHub 上提供 ,以及易于遵循的測試和重新訓練網絡模型的分步指導,為您的定制主題擴展了視覺原語。這些教程演示了數字工作流的強大概念,向您展示了如何在云端或 PC 機上迭代地訓練網絡模型,然后將其部署到 Jetson 上進行運行時推斷和進一步的數據收集。
通過使用預先訓練的網絡和轉移學習,此工作流使您可以輕松地使用自定義對象類來定制基礎網絡以滿足您的任務。一旦一個特定的網絡體系結構被證明適用于某個原語或應用程序,那么針對特定的用戶定義的應用程序(例如包含新對象的訓練數據)對其進行重新調整或重新訓練通常會非常容易。
正如在 這個平行的 博客文章中所討論的, NVIDIA 在數字 5 上增加了對分段網絡的支持,現在可以在 Jetson TX2 上使用,演示時間為兩天。分割原語使用完全卷積 Alexnet 架構( FCN-Alexnet )對視野中的單個像素進行分類。由于分類發生在像素級,與圖像識別中的圖像級不同,分割模型能夠提取對周圍環境的全面了解。這克服了自主導航機器人和無人機所面臨的重大障礙,這些機器人和無人機可以直接使用分割區域進行路徑規劃和障礙物回避。
分段制導的自由空間探測使地面車輛能夠安全地在地面上導航,而無人機則通過視覺識別和跟蹤地平線和天空平面,以避免與障礙物和地形發生碰撞。感知和避免功能是智能機器與環境安全交互的關鍵。在 Jetson TX2 上使用 TensorRT 處理要求計算量大的分段網絡,對于避免事故所需的低響應延遲至關重要。
兩天的演示包括一個使用 FCN Alexnet 的空中分割模型(圖 7 ),以及相應的 horizon 第一人稱視圖( FPV )數據集。空中分割模型可作為無人機和自主導航的范例。您可以使用自定義數據輕松擴展模型,以識別用戶定義的類,如著陸平臺和工業設備。一旦以這種方式增強,你就可以把它部署到裝備了 Jetson 的無人機上,比如 Teal 和 Aerialtronics 的無人機。
為了鼓勵開發更多的自主飛行控制模式,我在 GitHub 上發布了空中訓練數據集、分段模型和工具。 NVIDIA Jetson TX2 和 Two Days to a Demo 使在該領域開始使用先進的深度學習解決方案比以往任何時候都更容易。
Jetson 生態系統
Jetson TX2 的模塊化外形使其能夠部署到各種環境和場景中。 NVIDIA 的開源參考載波設計來自于 Jetson TX2 開發工具包,為縮小或修改單個項目需求的設計提供了一個起點。一些小型化的載體與 Jetson 模塊本身具有相同的 50x87mm 的占地面積,從而實現了緊湊的組裝,如圖 8 所示。使用 NVIDIA 提供的文檔和設計輔助資料,或嘗試現成的解決方案。今年 4 月, NVIDIA 將推出 Jetson TX1 和 TX2 模塊,價格分別為 299 美元和 399 美元,數量為 1000 臺或更多。
圖 8 : ConnectTech
Sprocket
緊湊型托架組件,適用于 Jetson TX2 和 Jetson TX1 ,售價 99 美元。
生態系統合作伙伴{ ConnectTech ? Auvidea ?提供與 Jetson TX1 和 TX2 共享插座兼容的可部署微型載體和外殼,如圖 8 所示。 Image partners & 豹紋成像 ? 山脊跑 提供攝像頭和多媒體支持。加固專家 阿巴科系統 ↓ 沃爾夫先進技術 ?為在惡劣環境下操作提供 MIL 規范的資質。
除了用于部署到野外的緊湊型載體和外殼外, Jetson 的生態系統覆蓋范圍超出了典型的嵌入式應用。 Jetson TX2 的多核 Arm / GPU 體系結構和卓越的計算效率也讓高性能計算( HPC )行業備受關注。高密度 1U 機架式服務器現已提供萬兆以太網和多達 24 個 Jetson 模塊。圖 9 顯示了一個可伸縮陣列服務器的示例。 Jetson 的低功耗和被動冷卻對于輕量級、可擴展的云任務(包括低功耗的 web 服務器、多媒體處理和分布式計算)很有吸引力。視頻分析和代碼轉換后端通常與部署在現場的智能攝像機和物聯網設備上的 Jetson 配合工作,可以從 Jetson TX2 增加的每個處理器支持的同步數據流和視頻編解碼器的比率中獲益。
AI 在邊緣
Jetson TX2 無與倫比的嵌入式計算能力將尖端 DNN 和下一代人工智能帶到板上邊緣設備上。 Jetson TX2 提供服務器級的高能效性能。它的原始深度學習性能比 Intel Xeon 高出 1 。 25 倍,計算效率提高了近 20 倍。 Jetson 緊湊的占地面積、計算能力和具有深度學習功能的 JetPack 軟件堆棧使開發人員能夠使用 AI 解決 21 世紀的挑戰。
關于作者
Dustin Franklin 是 NVIDIA 的 Jetson 團隊的開發人員布道者。 Dustin 擁有機器人和嵌入式系統方面的背景,他樂于在社區中提供幫助,并與 Jetson 一起參與項目。你可以在 NVIDIA Developer Forums 或 Github 上找到他。
審核編輯:郭婷
-
嵌入式
+關注
關注
5090文章
19176瀏覽量
306927 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239678 -
深度學習
+關注
關注
73文章
5512瀏覽量
121415
發布評論請先 登錄
相關推薦
評論