近日,摩爾線程宣布開源高性能線性代數模板庫MUTLASS,以便開發者能夠更高效針對摩爾線程全功能GPU的MUSA Core及Tensor Core等單元進行編程,加速基于國產GPU的算子開發以及算法創新。
在數值計算和深度學習領域,矩陣乘法(GEMM)及其變種(如FlashAttention、Convolution)是構建復雜上層應用的基石。然而,為了追求更高的算子融合效率或者更創新的算法,開發者們往往需要超越標準化計算接口的限制,如標準BLAS接口以及芯片廠商的計算庫接口,以實現高性能的定制化算子。
MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是為滿足這一需求而設計。作為摩爾線程專為MUSA架構優化的高性能計算庫,MUTLASS是基于開源模板庫CUTLASS進行的MUSA適配和定制化開發、優化,針對矩陣乘法及相關變種,MUTLASS提供了一系列高性能的C++模板組件,并采用了與muDNN庫類似的分層分解及數據搬運策略,以確保性能的充分發揮。
在本次開源的版本中,摩爾線程適配了CuTe后端庫,為其增加了第三代MUSA架構的MMA計算原語,支持TF32/FP16/BF16/INT8等多種數據精度,并以此為基礎,初步實現了矩陣乘法、默認實例庫、性能測試器及相關工具包的支持。
借助MUTLASS,開發者們既可以靈活復用不同層級的模板組件,也可以按需修改各種模板組件的實現細節,以較低的開發成本實現定制化的高性能算子,從而在摩爾線程全功能GPU上充分釋放性能,并嘗試更多的算法創新。
摩爾線程將持續優化MUTLASS的性能,并不斷引入新的功能。我們誠邀廣大開發者體驗MUTLASS,并提供寶貴的反饋意見,共同促進MUTLASS在性能和功能上的持續完善,攜手推動基于國產GPU的生態建設。
關于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。
我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。
-
gpu
+關注
關注
28文章
4752瀏覽量
129041 -
開源
+關注
關注
3文章
3368瀏覽量
42566 -
摩爾線程
+關注
關注
2文章
200瀏覽量
4597
原文標題:開源MUTLASS|摩爾線程加速基于國產GPU的算子開發以及算法創新
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論