由中國工程院信息與電子工程學部主辦,浪潮信息承辦,2021年人工智能計算大會(AICC)于北京成功召開。作為全球AI計算領域最具影響力的技術盛會,本次大會以“智算·新際”為主題,邀請到眾多專家學者與產(chǎn)業(yè)領袖,就智能算力發(fā)展、人工智能產(chǎn)業(yè)創(chuàng)新以及產(chǎn)業(yè)數(shù)字化轉型展開精彩分享。燧原科技副總裁鄧輝先生受邀出席“AI芯片創(chuàng)新技術”分論壇,并就燧原科技如何立足于國產(chǎn)云端AI算力攻克通用性與性能雙重挑戰(zhàn)發(fā)表演講。
起點
長期處于自主創(chuàng)新空白的云端訓練AI算力一切要從2012年那場改變人工智能發(fā)展史的ImageNet圖像分類競賽開始談起。在當時的比賽中,“深度學習之父”、圖靈獎獲得者——多倫多大學Geoffrey Hinton教授首次提出深度卷積神經(jīng)網(wǎng)絡模型“AlexNet”,參數(shù)量達6000萬。AlexNet的出現(xiàn)是人工智能技術發(fā)展史上重要的轉折點,它將沉寂已久的深度學習技術再次推至歷史舞臺。除了革命性的“大模型”,Geoffrey Hinton教授創(chuàng)新性地采用了異構算力GPU作為訓練加速資源。“AI加速”這個概念由此進入廣大AI科研工作者與產(chǎn)業(yè)落地先鋒的視野。
新一輪技術文明由此開始,可這并沒有帶來我國自主創(chuàng)新AI算力的繁榮,一直以來,AI加速產(chǎn)品與技術都被GPU廠商所壟斷,尤其是在云端訓練領域,由于云端數(shù)據(jù)中心整體架構的高度復雜性、大規(guī)模分布式AI訓練帶來的巨大挑戰(zhàn)及其本身要支撐的業(yè)務多樣性等原因,云端訓練是國內廠商切入難度最為高的一個領域,長期處于空白的狀態(tài),燧原科技作為行業(yè)領頭羊于2019年發(fā)布邃思1.0云端訓練芯片,開始了攻堅技術壁壘、打破壟斷的征程。
挑戰(zhàn)
云端專用AI訓練產(chǎn)品的性能與通用性互聯(lián)網(wǎng)是人工智能技術與產(chǎn)業(yè)發(fā)展的沃土,人工智能在互聯(lián)網(wǎng)的廣泛應用得益于各類深入人們生活的終端應用所產(chǎn)生的大量數(shù)據(jù),而云計算作為關鍵的底層技術支撐,正與互聯(lián)網(wǎng)共同以孿生體姿態(tài)不斷地蓬勃發(fā)展,為我們帶來了空前的數(shù)據(jù)井噴與突破人類認知的巨量模型,對超強算力產(chǎn)生了爆炸性的需求;傳統(tǒng)GPU架構雖然早期開創(chuàng)了人工智能發(fā)展的篇章,但隨著人工智能產(chǎn)業(yè)蓬勃發(fā)展,在規(guī)模效應的驅使下,DSA架構帶來的更經(jīng)濟的成本與更高效的計算能力使得專用AI訓練產(chǎn)品變得越來越有優(yōu)勢。然而由于專用AI訓練產(chǎn)品天生缺乏生態(tài)積累,在模型泛化與通用性上一直是業(yè)界痛點。因此如何保證比GPU更高效的AI模型計算能力,同時兼顧一定的通用性是云端AI訓練芯片面臨的最大挑戰(zhàn)。燧原科技副總裁鄧輝先生表示:“我們把性能與通用性作為產(chǎn)品成功最重要的衡量標準,經(jīng)過3年的努力,這兩方面的能力在我們第二代產(chǎn)品上取得飛躍。”
燧原
中國首家發(fā)布二代云端訓練加速產(chǎn)品組合的企業(yè)燧原科技以助力發(fā)展我國集成電路和人工智能產(chǎn)業(yè)、推動AI算力普惠化為使命,秉承“做大芯片、拼硬科技”的原則,自2019年12月推出第一代云端訓練芯片邃思1.0以后,率先實現(xiàn)國產(chǎn)AI芯片數(shù)據(jù)中心與千卡液冷集群的商業(yè)落地,并于2021年7月在世界人工智能大會(WAIC)發(fā)布邃思2.0,是中國唯一一家推出二代云端訓練加速產(chǎn)品組合的企業(yè)。
基于燧原科技自研的GCU-CARE計算引擎,邃思2.0進行了大規(guī)模的架構升級,針對人工智能計算的特性進行深度優(yōu)化,夯實了支持通用異構計算的基礎。支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8;并在單精度算力方面達到與7nm GPU相當?shù)男阅芩剑簡尉菷P32峰值算力最高達到40 TFLOPS,單精度張量TF32峰值算力最高達到160 TFLOPS,大大提高了能效比。同時搭載了4顆HBM2E片上存儲芯片,高配支持64 GB內存,帶寬最高可達1.8 TB/s。GCU-LARE也全面升級,提供雙向300 GB/s互聯(lián)帶寬,支持數(shù)千張云燧CloudBlazer加速卡互聯(lián),實現(xiàn)優(yōu)異的線性加速比。
而同步升級的馭算TopsRider軟件平臺,成為燧原科技構建原始創(chuàng)新軟件生態(tài)的基石。通過軟硬件協(xié)同架構設計,充分發(fā)揮邃思2.0的性能;基于算子泛化技術及圖優(yōu)化策略,支持主流深度學習框架下的各類模型訓練;利用Horovod分布式訓練框架與GCU-LARE互聯(lián)技術相互配合,為超大規(guī)模集群的高效運行提供解決方案。開放升級的編程模型和可擴展的算子接口,為客戶模型的優(yōu)化提供了自定義的開發(fā)能力。
基于邃思2.0,燧原科技推出了云燧T20人工智能訓練加速卡與云燧T21人工智能訓練OAM模組,能夠通過300GB/s的獨立片間互聯(lián)通道提供靈活的多芯片算力擴展方案,支持單機多卡、單機柜多節(jié)點、多機柜大機群多種部署方式。
未來
更多的AI解決方案與產(chǎn)品孵化除了強勁的原始創(chuàng)新芯片支撐,AI算力的騰飛與人工智能產(chǎn)業(yè)的發(fā)展需要依托于健全的生態(tài)合作體系。在演講的最后,燧原科技副總裁鄧輝先生表示:“未來,我們期望在人工智能領域和浪潮以及更多的合作伙伴一起合作打造更多AI解決方案和產(chǎn)品,助力中國AI產(chǎn)業(yè)蓬勃發(fā)展。”
責任編輯:haq
-
芯片
+關注
關注
456文章
51155瀏覽量
426302 -
AI
+關注
關注
87文章
31490瀏覽量
269911 -
燧原科技
+關注
關注
0文章
126瀏覽量
8381
原文標題:原始創(chuàng)新架構助力云端AI算力騰飛
文章出處:【微信號:gh_1222367b8780,微信公眾號:燧原科技Enflame】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論