根據谷歌統計的數據,由于去年疫情帶來的增長加速,再加上視頻會議、AR/VR與云游戲等應用的興起,視頻服務已經占據整個互聯網60%以上的流量。而這也使得服務器端視頻處理能力的要求在不斷拔高,處理的對象已經不再是1080p 30幀的短視頻了,而是對4K以上的HDR視頻進行實時轉碼。
除了開發更高效的視頻編碼(VP9、AV1等)和媒體框架之外,硬件平臺也是不可或缺的一環,市面上也涌現了不少大相徑庭的硬件方案。傳統的CPU在新編碼上早已顯得吃力,而GPU雖然性能優越,但計算流量過大,服務器的成本要高出一截,因此不少云服務廠商也開始推出專用硬件來進行視頻處理。
傳統GPU
GPU作為最常用的視頻處理硬件,也理所當然地成為了數據中心視頻轉碼的選擇之一。目前常用于視頻轉碼的最新英偉達GPU為T4。該卡包含320個圖靈Tensor核心和2560個CUDA核心,單精度算力達到8.1 TFLOPS。英偉達稱在獨立的硬件轉碼引擎下,與前代GPU Tesla M60相比,其轉碼性能提升至2倍,同時支持38個1080p的視頻流。
英偉達T4 / Nvidia
除了英偉達之外,AMD也有可用于視頻編碼的Radeon Pro V520 GPU,根據全球最大的云服務廠商亞馬遜AWS公布的數據,其通用圖形渲染性能要高出英偉達T4 40%,單卡最多支持6個1080p60的視頻流同時編碼。
賽靈思媒體加速卡
除了傳統的通用GPU方案外,另一個常見的方案就是采用專門的視頻處理加速卡,比如賽靈思于去年發布的數據中心媒體加速卡Alveo U30,專用于高密度的視頻轉碼應用。該卡的APU采用了4核Arm Cortex-A53,RPU采用了雙核Arm Cortex-R5F,而GPU采用了Arm Mali-400 MP2。U30支持到8路1080p60視頻流的編碼,而且在功耗和靈活性上優于CPU+GPU的傳統方案。
Alveo U30加速卡 / Xilinx
今年9月,亞馬遜AWS開放了新的EC2 VT1實例,該實例至多可以擴展至8張賽靈思Alveo U30加速卡。根據亞馬遜AWS公布的數據,基于GPU(英偉達T4 GPU+英特爾Cascade Lake CPU)的G4dn實例相比,在H.264/AVC和H.265/HEVC的實時視頻編碼上,VT1所需的成本比后者低上60%,與基于CPU(AMD EPYC 7002)的C5實例相比,成本更是低上60%。
除此之外,賽靈思還會提供其視頻轉碼SDK,不僅整合了FFMpeg,更有媒體加速API與U30上的編解碼器直連,今年年末還會推出對于另一框架GStreamer的支持。
亞馬遜不僅推出了基于這類加速卡的云服務,旗下的直播平臺Twitch也在使用這類實例。Twitch稱計劃將VT1實例用于數百萬計的直播轉碼,以此實現在更密集的串流和低延遲下,不犧牲視頻的壓縮或畫質。
谷歌定制VPU
作為僅次于亞馬遜AWS和微軟Azure的云服務廠商,谷歌在其公共云服務上依然在使用傳統的GPU方案。但坐擁全球最大的視頻平臺Youtube和成立不久的云游戲平臺Stadia,谷歌決定在這些服務上采用自己的硬件來加速視頻處理。
搭載了兩個VCU芯片的PCBA / Google
作為視頻編碼標準VP9的開發者,谷歌想要同時實現H.264和VP9支持,以及多輸出的轉碼,并在直播與離線轉碼中達到理想的速度與質量,還能全面控制軟件算法進行調整,因此谷歌決定開發自己的硬件VCU芯片。
谷歌基于該硬件打造的系統具有兩張VCU加速器,每個加速器內置了10個VCU編碼器核心,每個核心都能夠實時編碼2160p的視頻流,使用三個參考幀時可達60FPS。經過在H.264二次編碼上的輸出對比,8塊VCU芯片的性能是4塊英偉達T4性能的兩倍以上,是英特爾Skylake CPU的8倍以上,在VP9編碼上的性能差距更是可以拉到20倍。
結語
在視頻處理方面,尤其是視頻編碼轉碼上,CPU+GPU的通用傳統方案已經在失去其優勢,專用的加速器方案明顯在成本和性能突破上走的更快一些。這種趨勢在數據中心的其他應用領域上也在慢慢顯現,比如深度學習、AI等,專用加速器的方案更適合針對性更強的場景。隨著云服務廠商不斷推出更多的專用實例,GPU在視頻處理上的地位很可能會被專用加速器給替代。
除了開發更高效的視頻編碼(VP9、AV1等)和媒體框架之外,硬件平臺也是不可或缺的一環,市面上也涌現了不少大相徑庭的硬件方案。傳統的CPU在新編碼上早已顯得吃力,而GPU雖然性能優越,但計算流量過大,服務器的成本要高出一截,因此不少云服務廠商也開始推出專用硬件來進行視頻處理。
傳統GPU
GPU作為最常用的視頻處理硬件,也理所當然地成為了數據中心視頻轉碼的選擇之一。目前常用于視頻轉碼的最新英偉達GPU為T4。該卡包含320個圖靈Tensor核心和2560個CUDA核心,單精度算力達到8.1 TFLOPS。英偉達稱在獨立的硬件轉碼引擎下,與前代GPU Tesla M60相比,其轉碼性能提升至2倍,同時支持38個1080p的視頻流。
英偉達T4 / Nvidia
除了英偉達之外,AMD也有可用于視頻編碼的Radeon Pro V520 GPU,根據全球最大的云服務廠商亞馬遜AWS公布的數據,其通用圖形渲染性能要高出英偉達T4 40%,單卡最多支持6個1080p60的視頻流同時編碼。
賽靈思媒體加速卡
除了傳統的通用GPU方案外,另一個常見的方案就是采用專門的視頻處理加速卡,比如賽靈思于去年發布的數據中心媒體加速卡Alveo U30,專用于高密度的視頻轉碼應用。該卡的APU采用了4核Arm Cortex-A53,RPU采用了雙核Arm Cortex-R5F,而GPU采用了Arm Mali-400 MP2。U30支持到8路1080p60視頻流的編碼,而且在功耗和靈活性上優于CPU+GPU的傳統方案。
Alveo U30加速卡 / Xilinx
今年9月,亞馬遜AWS開放了新的EC2 VT1實例,該實例至多可以擴展至8張賽靈思Alveo U30加速卡。根據亞馬遜AWS公布的數據,基于GPU(英偉達T4 GPU+英特爾Cascade Lake CPU)的G4dn實例相比,在H.264/AVC和H.265/HEVC的實時視頻編碼上,VT1所需的成本比后者低上60%,與基于CPU(AMD EPYC 7002)的C5實例相比,成本更是低上60%。
除此之外,賽靈思還會提供其視頻轉碼SDK,不僅整合了FFMpeg,更有媒體加速API與U30上的編解碼器直連,今年年末還會推出對于另一框架GStreamer的支持。
亞馬遜不僅推出了基于這類加速卡的云服務,旗下的直播平臺Twitch也在使用這類實例。Twitch稱計劃將VT1實例用于數百萬計的直播轉碼,以此實現在更密集的串流和低延遲下,不犧牲視頻的壓縮或畫質。
谷歌定制VPU
作為僅次于亞馬遜AWS和微軟Azure的云服務廠商,谷歌在其公共云服務上依然在使用傳統的GPU方案。但坐擁全球最大的視頻平臺Youtube和成立不久的云游戲平臺Stadia,谷歌決定在這些服務上采用自己的硬件來加速視頻處理。
搭載了兩個VCU芯片的PCBA / Google
作為視頻編碼標準VP9的開發者,谷歌想要同時實現H.264和VP9支持,以及多輸出的轉碼,并在直播與離線轉碼中達到理想的速度與質量,還能全面控制軟件算法進行調整,因此谷歌決定開發自己的硬件VCU芯片。
谷歌基于該硬件打造的系統具有兩張VCU加速器,每個加速器內置了10個VCU編碼器核心,每個核心都能夠實時編碼2160p的視頻流,使用三個參考幀時可達60FPS。經過在H.264二次編碼上的輸出對比,8塊VCU芯片的性能是4塊英偉達T4性能的兩倍以上,是英特爾Skylake CPU的8倍以上,在VP9編碼上的性能差距更是可以拉到20倍。
結語
在視頻處理方面,尤其是視頻編碼轉碼上,CPU+GPU的通用傳統方案已經在失去其優勢,專用的加速器方案明顯在成本和性能突破上走的更快一些。這種趨勢在數據中心的其他應用領域上也在慢慢顯現,比如深度學習、AI等,專用加速器的方案更適合針對性更強的場景。隨著云服務廠商不斷推出更多的專用實例,GPU在視頻處理上的地位很可能會被專用加速器給替代。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
gpu
+關注
關注
28文章
4766瀏覽量
129190 -
數據中心
+關注
關注
16文章
4844瀏覽量
72286
發布評論請先 登錄
相關推薦
《CST Studio Suite 2024 GPU加速計算指南》
的各個方面,包括硬件支持、操作系統支持、許可證、GPU計算的啟用、NVIDIA和AMD GPU的詳細信息以及相關的使用指南和故障排除等內容。
1.
發表于 12-16 14:25
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU
本篇閱讀學習第七、八章,了解GPU架構演進及CPGPU存儲體系與線程管理
█從圖形到計算的GPU架構演進
GPU圖像計算發展
●從三角形開始
發表于 11-03 12:55
常見GPU問題及解決方法
GPU(圖形處理單元)是計算機硬件的重要組成部分,負責處理圖形和視頻渲染任務。隨著技術的發展,GPU在深度學習、游戲、視頻編輯等領域扮演著越
如何提高GPU性能
在當今這個視覺至上的時代,GPU(圖形處理單元)的性能對于游戲玩家、圖形設計師、視頻編輯者以及任何需要進行高強度圖形處理的用戶來說至關重要。GPU不僅是游戲和多媒體應用的心臟,它還在科學計算
如何選擇適合的GPU
在現代計算領域,GPU(圖形處理單元)的作用已經遠遠超出了傳統的圖形渲染。從深度學習到科學計算,再到視頻編輯,GPU都在發揮著越來越重要的作
GPU計算主板學習資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算主板 視頻處理 相機信號
GPU計算主板學習資料第735篇:基于3U VPX的AGX Xavier GPU計算主板 信號計算主板
動畫渲染用GPU還是CPU的選擇思路
對話Imagination中國區董事長:以GPU為支點加強軟硬件協同,助力數【白皮書下載】分布式功能安全的創新與突破本文來源:渲染101動畫渲染動畫渲染是一個計算密集型的過程,需要強大的硬件
InConnect維護設備的流量是多少
:需要根據實際視頻流量計算
4、工業路由器產品每月的云平臺連接流量+維護隧道建立流量約30MB-40MB,一年約360MB-480MB,單臺設備每月InConnct鏈接心跳
發表于 07-25 07:23
恒訊科技的GPU云解決方案有什么特點和優勢?
是GPU云解決方案的主要特點和優勢: 1、彈性計算能力:用戶可以根據自己的需求快速擴展或縮減計算資源,而無需投資昂貴的硬件設備。 2、高性能并行處理:
FPGA在深度學習應用中或將取代GPU
、運動和電力限制等環境因素。
Larzul 說:“在一些關鍵的應用場景中,比如智慧城市的視頻監控,要求硬件暴露在對 GPU 有不利影響的環境因素 (比如太陽) 下?!?GPU 受晶體管
發表于 03-21 15:19
gpu是什么和cpu的區別
) GPU(Graphics Processing Unit)是一種專門設計用于處理圖形和視頻的處理器。最初,GPU的主要功能是處理計算機游戲和圖形設計中的復雜圖形操作,但隨著技術的發
評論