電子發燒友網報道(文/周凱揚)從去年國產GPU開始陸續冒尖后,今年各大廠商的動作明顯更大了一些,新品頻繁面世。但從這些新品的規格和技術來看,其實每家公司對于自己GPU產品的定位都是不同的,我們就選幾家國產GPU廠商來分析一下他們的產品定位以及未來技術趨勢。
摩爾線程
作為近期剛發布了新品的國產GPU廠商,摩爾線程確實收獲了不少關注,他們最新的顯卡MTT S80也一度成了熱點話題。MTT S80作為一張游戲顯卡,搭載了MT-春曉芯片核心,功耗最高250W,單精度浮點算力高達14.4TFLOPS。
不僅如此,MTT S80也是業內首個PCIe 5.0的顯卡,支持雙向128GB/s的傳輸帶寬。更重要的是,哪怕標榜的是游戲顯卡,MTT S80依然支持3D圖形渲染、智能多媒體、物理仿真及科學計算和AI計算加速的全功能應用。
MTT S3000 / 摩爾線程
除了MTT S80以外,春曉這一芯片也為摩爾線程帶來了面向服務器GPU市場的新產品,MTT S3000。單從芯片規格上來看,MTT S3000與MTT S80都用的是完整的MT-春曉芯片,都內置了4096個MUSA流處理單元,但前者將主頻提高到了1.9GHz,FP32也因此提升到了15.2TFLOPS。
為了讓MTT S3000更適用于服務器市場,摩爾線程也將其顯存提升至了32GB,并增加了對虛擬化的支持,可對GPU彈性切分,MTT S3000也從MTT S80的主動散熱改為了被動散熱。
到了AI上,摩爾線程的MUSA架構和軟件棧為MTT S3000提供了訓推一體的支持。除了訓練支持TensorFlow、PyTorch、飛槳等常見框架外,摩爾線程還在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源碼的方案。
可以看出,摩爾線程不僅已經在游戲GPU市場有了彌足珍貴的進展,同樣想在服務器市場實現突破,甚至是通過兼容CUDA來吸引更多的客戶,這其實也是英偉達這樣的GPU巨頭主攻的兩大方向。但兼容或對標CUDA一法,AMD、英特爾這樣的國際大廠也都在推進,卻也都是各自為戰,考慮到其中涉及的開發投入和難度之大,或許在軟件生態上走合作之路會更適合。
芯動科技
在使用GPU這類產品的過程中,支持不同的圖形與計算API對于開發者來說尤為重要。而芯動科技的風華GPU在這API上的支持尤為亮眼,目前已經完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,這也為風華GPU的開發生態奠定了基礎。
芯動高性能接口IP / 芯動科技
雖然其產品性能本身已經足夠亮眼,但風華GPU真正最大的優勢在于芯動自研高性能接口IP上,包括高帶寬內存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒體(HDMI 2.1、eDP 1.4)等等,同時這些IP也實現了對先進工藝的覆蓋。而且芯動科技已經在最近推出了跨工藝、跨封裝的Chiplet互聯解決方案Innolink Chiplet,同時兼容UCIe Chiplet。
對于高性能GPU來說,如果說核心IP決定了性能上限的話,那么這些接口IP就決定了GPU能發揮出多少實力,以及是否能在未來的服務器市場大放異彩。目前看來,風華2號的定位是一款低功耗的GPU產品,更適合用于智能座艙之類的應用中,而風華1號則是面向服務器市場,尤其是像云游戲、云手機之類的場景。
可從規格來看,這兩款一年以內發布的產品其實都還沒有用到PCIe 5.0之類的新接口技術。芯動科技已經在8月公開表示,風華3號也已經基本完成研發,還支持光線追蹤技術,據了解該產品和風華1號一樣也是面向服務器/數據中心市場的,但或許還是會側重在云游戲等商用場景上,相信我們會在未來的發布上看到風華3號更強大的性能表現。
壁仞科技
雖然壁仞科技最近遇上了一些麻煩,但不可否認的是,其BR100系列通用GPU芯片確實在性能上達到了極高的水準。與上面提到的兩個GPU不同,BR100雖然是通用計算GPU,但明顯更適合于AI和科學計算這樣的高性能計算場景,所以BR100并沒有去做DirectX和Vulkan這樣的圖形API支持。
這點從BR100的芯片設計上也能看出,單個BR100由16個流處理簇構成,每個都采用了16個執行單元的設計,而每個執行單元包含16個流處理核心(V-core)和一個向量引擎(T-Core)。V-Core作為SIMT處理器,支持到FP32、FP16、INT32、INT16,用于通用計算。
而T-core在SPC級別的2.5D GEMM架構下,可以極大加速常見的AI運算,諸如MMA矩陣乘加和卷積等。T-Core不僅支持FP32、TF32這些主流數據精度外,還原創定義了TF32+數據精度,相較TF32在實現更高精度的同時,也提高了吞吐性能。
從軟件平臺上看,壁仞科技的BIRENSUPA不僅支持PyTorch之類的主流框架,也有壁仞自研的推理加速引擎。從BIRENSUPA平臺框圖中的應用定位來看,壁仞科技的主要發力方向看來還是多媒體、自動駕駛和推薦系統等重AI的場景。
壁仞100P OAM模組 / 壁仞科技
壁仞科技也是在一眾國產PCIe產品中,唯一推出了OAM模組的廠商,壁仞科技也和浪潮合作推出了“海玄”這種OAM服務器,實現了8PFLLOPS的峰值算力。不過也正是因為實現了如此高的性能,似乎招致了一些惡意阻礙,但這也恰恰說明了他們走的方向是對的,如果他們能走出這一困境的話,無疑能在服務器市場大有作為。
摩爾線程
作為近期剛發布了新品的國產GPU廠商,摩爾線程確實收獲了不少關注,他們最新的顯卡MTT S80也一度成了熱點話題。MTT S80作為一張游戲顯卡,搭載了MT-春曉芯片核心,功耗最高250W,單精度浮點算力高達14.4TFLOPS。
不僅如此,MTT S80也是業內首個PCIe 5.0的顯卡,支持雙向128GB/s的傳輸帶寬。更重要的是,哪怕標榜的是游戲顯卡,MTT S80依然支持3D圖形渲染、智能多媒體、物理仿真及科學計算和AI計算加速的全功能應用。
MTT S3000 / 摩爾線程
除了MTT S80以外,春曉這一芯片也為摩爾線程帶來了面向服務器GPU市場的新產品,MTT S3000。單從芯片規格上來看,MTT S3000與MTT S80都用的是完整的MT-春曉芯片,都內置了4096個MUSA流處理單元,但前者將主頻提高到了1.9GHz,FP32也因此提升到了15.2TFLOPS。
為了讓MTT S3000更適用于服務器市場,摩爾線程也將其顯存提升至了32GB,并增加了對虛擬化的支持,可對GPU彈性切分,MTT S3000也從MTT S80的主動散熱改為了被動散熱。
到了AI上,摩爾線程的MUSA架構和軟件棧為MTT S3000提供了訓推一體的支持。除了訓練支持TensorFlow、PyTorch、飛槳等常見框架外,摩爾線程還在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源碼的方案。
可以看出,摩爾線程不僅已經在游戲GPU市場有了彌足珍貴的進展,同樣想在服務器市場實現突破,甚至是通過兼容CUDA來吸引更多的客戶,這其實也是英偉達這樣的GPU巨頭主攻的兩大方向。但兼容或對標CUDA一法,AMD、英特爾這樣的國際大廠也都在推進,卻也都是各自為戰,考慮到其中涉及的開發投入和難度之大,或許在軟件生態上走合作之路會更適合。
芯動科技
在使用GPU這類產品的過程中,支持不同的圖形與計算API對于開發者來說尤為重要。而芯動科技的風華GPU在這API上的支持尤為亮眼,目前已經完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,這也為風華GPU的開發生態奠定了基礎。
芯動高性能接口IP / 芯動科技
雖然其產品性能本身已經足夠亮眼,但風華GPU真正最大的優勢在于芯動自研高性能接口IP上,包括高帶寬內存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒體(HDMI 2.1、eDP 1.4)等等,同時這些IP也實現了對先進工藝的覆蓋。而且芯動科技已經在最近推出了跨工藝、跨封裝的Chiplet互聯解決方案Innolink Chiplet,同時兼容UCIe Chiplet。
對于高性能GPU來說,如果說核心IP決定了性能上限的話,那么這些接口IP就決定了GPU能發揮出多少實力,以及是否能在未來的服務器市場大放異彩。目前看來,風華2號的定位是一款低功耗的GPU產品,更適合用于智能座艙之類的應用中,而風華1號則是面向服務器市場,尤其是像云游戲、云手機之類的場景。
可從規格來看,這兩款一年以內發布的產品其實都還沒有用到PCIe 5.0之類的新接口技術。芯動科技已經在8月公開表示,風華3號也已經基本完成研發,還支持光線追蹤技術,據了解該產品和風華1號一樣也是面向服務器/數據中心市場的,但或許還是會側重在云游戲等商用場景上,相信我們會在未來的發布上看到風華3號更強大的性能表現。
壁仞科技
雖然壁仞科技最近遇上了一些麻煩,但不可否認的是,其BR100系列通用GPU芯片確實在性能上達到了極高的水準。與上面提到的兩個GPU不同,BR100雖然是通用計算GPU,但明顯更適合于AI和科學計算這樣的高性能計算場景,所以BR100并沒有去做DirectX和Vulkan這樣的圖形API支持。
這點從BR100的芯片設計上也能看出,單個BR100由16個流處理簇構成,每個都采用了16個執行單元的設計,而每個執行單元包含16個流處理核心(V-core)和一個向量引擎(T-Core)。V-Core作為SIMT處理器,支持到FP32、FP16、INT32、INT16,用于通用計算。
而T-core在SPC級別的2.5D GEMM架構下,可以極大加速常見的AI運算,諸如MMA矩陣乘加和卷積等。T-Core不僅支持FP32、TF32這些主流數據精度外,還原創定義了TF32+數據精度,相較TF32在實現更高精度的同時,也提高了吞吐性能。
從軟件平臺上看,壁仞科技的BIRENSUPA不僅支持PyTorch之類的主流框架,也有壁仞自研的推理加速引擎。從BIRENSUPA平臺框圖中的應用定位來看,壁仞科技的主要發力方向看來還是多媒體、自動駕駛和推薦系統等重AI的場景。
壁仞100P OAM模組 / 壁仞科技
壁仞科技也是在一眾國產PCIe產品中,唯一推出了OAM模組的廠商,壁仞科技也和浪潮合作推出了“海玄”這種OAM服務器,實現了8PFLLOPS的峰值算力。不過也正是因為實現了如此高的性能,似乎招致了一些惡意阻礙,但這也恰恰說明了他們走的方向是對的,如果他們能走出這一困境的話,無疑能在服務器市場大有作為。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
gpu
+關注
關注
28文章
4768瀏覽量
129227 -
AI
+關注
關注
87文章
31490瀏覽量
269918
發布評論請先 登錄
相關推薦
CPU\GPU引領,國產AI PC進階
電子發燒友網報道(文/黃晶晶)當前AI PC已經成為PC產業的下一個浪潮,國產CPU、GPU廠商在PC市場一直處于追趕態勢,AI PC給了大家新的機遇,在這個賽道
澎峰科技計算軟件棧與沐曦GPU完成適配和互認證
?近期,澎峰科技與沐曦完成了對PerfXLM(推理引擎)、PerfXCloud(大模型服務平臺)與沐曦的曦云系列通用計算GPU的聯合測試,測試結果表明PerfXLM、PerfXCloud軟件與沐曦GPU產品實現了全面兼容。
GPU是如何訓練AI大模型的
在AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU
《CST Studio Suite 2024 GPU加速計算指南》
《GPU Computing Guide》是由Dassault Systèmes Deutschland GmbH發布的有關CST Studio Suite 2024的GPU計算指南。涵蓋GP
發表于 12-16 14:25
《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
場景精確投射到2D平面;最后在像素著色階段完成材質渲染和光照明細處理。DirectX API的迭代推動了可編程著色器的發展,解放了GPU的通用計算潛能。特別是像素著色器的設計,啟發了我在深度學習任務中
發表于 11-24 17:12
新的Arm GPU助力釋放消費電子設備市場中的游戲和AI創新潛能
作為人們日常數字生活中不可或缺的一部分,Arm GPU 賦能了從當今智能手機上的沉浸式游戲,到各類邊緣側人工智能 (AI) 體驗的方方面面。
為什么GPU對AI如此重要?
GPU在人工智能中相當于稀土金屬,甚至黃金,它們在當今生成式人工智能時代中的作用不可或缺。那么,為什么GPU在人工智能發展中如此重要呢?什么是GPU圖形處理器(GPU)是一種通常用于進
大模型時代,國產GPU面臨哪些挑戰
電子發燒友網報道(文/李彎彎)隨著人工智能技術的快速發展,對GPU計算能力的需求也越來越高。國內企業也正在不斷提升GPU性能,以滿足日益增長的應用需求。然而,相較于國際巨頭,國內GPU
國產GPU在AI大模型領域的應用案例一覽
電子發燒友網報道(文/李彎彎)近一年多時間,隨著大模型的發展,GPU在AI領域的重要性再次凸顯。雖然相比英偉達等國際大廠,國產GPU起步較晚、聲勢較小。不過近幾年,國內不少
FPGA在深度學習應用中或將取代GPU
基礎設施,人們仍然沒有定論。如果 Mipsology 成功完成了研究實驗,許多正受 GPU 折磨的 AI 開發者將從中受益。
GPU 深度學習面臨的挑戰
三維圖形是 GPU 擁有如此
發表于 03-21 15:19
【國產FPGA+OMAPL138開發板體驗】(原創)5.FPGA的AI加速源代碼
FPGA架構的優化。以下是我寫的一個簡化版的代碼,用來展示FPGA如何加速AI計算中的某個簡單操作(比如矩陣乘法)。
// Verilog代碼,用于FPGA上的AI加速操作
module
發表于 02-12 16:18
評論