AI需要多元異構算力提供支持,拉動AI芯片需求。人工智能算法需要從海量的圖像、語音、視頻等非結構化數據中挖掘信息。從大模型的訓練、場景化的微調以及推理應用場景,都需要算力支撐。而以CPU為主的通用計算能力已經無法滿足多場景的AI需求。以CPU+AI芯片(GPU、FPGA、ASIC)提供的異構算力,并行計算能力優越、具有高互聯帶寬,可以支持AI計算效力實現最大化,成為智能計算的主流解決方案。
服務器中的CPU和AI卡的數量并不固定,會根據客戶應用需求調整,對于AI服務器來講,較為常見的是配備2個CPU,以及八個AI卡。而相比于AI服務器,傳統的通用服務器則以CPU為主。因此,AI的發展將極大拉動GPGPU、TPU、NPU等AI芯片的需求。
AI 計算需要多元異構算力提供支持,將極大拉動GPGPU、AISC 等 AI 芯片的需求。中國 AI 芯片市場規模有望快速增長,據艾瑞咨詢發布的《2022 年中國人工智能產業研究報告(Ⅴ)》,預計 2027 年達到 2164 億元。
中國AI芯片市場將保持高速增長,AI推理芯片份額有望持續提升,國產化AI芯片占比有望提升。2022年,中國的AI芯片市場規模約385億元。隨著AI發展以及智算中心建設浪潮,該市場預計將保持高增長趨勢。據艾瑞咨詢測算,到2027年,中國的AI芯片市場規模預計將達到2164億元。另外,在我國高性能及AI服務器中,GPGPU憑借其優秀的性能和通用能力占比92%,剩下份額由AISC和FPGA分享。隨著AI模型的優化落地,AI推理芯片的占比將日益提升。據艾瑞咨詢,2022年,中國AI訓練芯片以及AI推理芯片的占比分別為47.2%和52.8%。
AI芯片領域的三類玩家。大模型的訓練需要大規模的訓練數據以及強大的計算資源,需要多卡多機協同完成。這對AI芯片本身的性能,以及多卡多機的互聯提出了很高的要求。目前,在AI芯片領域,有三類玩家。一種是以Nvidia、AMD為代表的實力強勁的老牌芯片巨頭,這些企業積累了豐富的經驗,產品性能突出。
另一種是以Google、百度、華為為代表的云計算巨頭,這些企業紛紛布局通用大模型,并自己開發了AI芯片、深度學習平臺等支持大模型發展。如google的TensorFlow以及TPU,華為的鯤鵬昇騰、CANN及Mindspore。
最后是一些小而美的AI芯片獨角獸,如寒武紀、壁仞等。
英偉達占據80%以上中國加速卡市場份額,國產AI芯片亟待發展。根據IDC的數據顯示,2021年中國加速卡的出貨數量已經超過80萬片,其中Nvidia占據了超過80%的市場份額。剩下的份額有AMD、百度、寒武紀、燧原科技、新華三、華為、Intel和賽靈思等品牌。
1、英偉達:全球GPU龍頭
英偉達占據芯片市場絕對優勢。長期以來,英偉達在高端GPU市場占據絕對主導地位,現如今已量產的主流A100芯片相比前代產品V100,性能得到顯著提高,代表當今高端芯片水平。最新一代H100芯片也已經亮相,即將量產。天數智芯數據顯示,2021年英偉達在中國云端AI訓練芯片市場的份額達到90%。據IDC,在2021年中國出貨的80多萬張加速卡中,英偉達占據超過80%份額。芯片的研發周期較長,英偉達具有絕對先行優勢,雖然目前國內企業突破英偉達壟斷仍然任重道遠,但寒武紀、華為AI芯片快速發展,有望逐步進行國產替代。
受制裁影響,英偉達對部分產品性能進行 “閹割”,推出“中國版芯片”A800、H800。2022年10月,美國發布了針對中國的先進計算與半導體產品的出口管制,限制美國企業向中國出口先進高端芯片設備。在新管制的限制下,英偉達的A100、H100被禁止售賣給中國,而采用12nm工藝、性能較低的V100 GPU芯片不在管控之列。針對此次制裁,英偉達對A100的部分性能進行“閹割”,推出A800。
相比于A100,A800在單卡計算性能上沒有差別,但是互聯帶寬從600GB/s下降到了400GB/s,在一定程度上影響了如大模型訓練等多卡互聯場景的性能。目前,A800已實現量產,并在中國規模化落地應用。英偉達還推出了旗艦芯片H100的替代版H800,目前還未量產。
2、海光信息:國產高性能CPU和GPGPU領軍企業
海光信息專注于研發、設計和銷售高端處理器(CPU以及GPGPU),持續技術創新、產品迭代。海光信息的主要產品為應用于服務器和工作站等設備中的通用處理器(CPU)和協處理器(DCU,即GPGPU)。海光處理器性能出眾,同時軟硬件生態豐富、工具鏈完整、應用遷移成本低。另外,海光CPU與DCU雖脫胎于AMD,但經過多年獨立自主研發迭代,已經實現自主可控、安全可靠,是***之光。目前,蘇州昆山、成都等多地超算中心已經搭載海光CPU與DCU,為社會提供優質算力。
海光CPU一、二代均已商業化, 三代初亮相,四代有序研發中。海光DCU一代已商業化應用,二代研發中。公司持續技術創新和演進,堅持走“銷售一代, 驗證一代, 研發一代”的產品開發策略。公司建立了完善的高端處理器的研發環境和流程,持續開發多代產品,產品性能不斷提高,同時功能不斷完善豐富。海光CPU的四代產品中,海光一號和海光二號均實現了商業化應用,海光三號已亮相發布會,海光四號處于研發階段。海光DCU于2018年啟動DCU第一代產品深算一號的產品研發,于2020年1月啟動了深算二號的研發,截至2022年6月,深算一號已實現商業化應用。
海光DCU某些硬件性能與英偉達的A100、AMD的MI100相近。海光DCU雙精度計算能力突出。據北京大學高性能計算系統中標公告(HCZB-2021-ZB0364),海光信息的DCU Z100的通用計算核心達到8192個。其關鍵性能指標實現:FP64 10.8TFlops,顯存32GB HBM2,對比全球芯片巨頭的高端AI芯片不遑多讓。英偉達A100的相關指標為:FP64 9.7 TFlops、顯存40/80GB HBM2。AMD MI100的相關指標為:FP64 11.5 TFlops、顯存32GB HBM2。
海光DCU生態豐富,工具鏈完整。海光的DCU脫胎于AMD,兼容主流生態——開源ROCmGPU計算生態,支持TensorFlow、Pytorch和PaddlePaddle等主流深度學習框架、適配主流應軟件。ROCm又被稱為類CUDA,現有CUDA上運行的應用可以低成本遷移到基于ROCm的海光平臺上運行。
2022年,海光發布國內首個全精度(FP64)異構計算平臺,該平臺搭載CPU海光三號和DCU海光深算,涵蓋數值模擬、AI訓練、AI推理所需的多樣算力,實現了智能計算與數值運算的深度融合。同時,此平臺可全面支持TensorFlow、PyTorch、Caffe2等主流AI深度學習框架,目前已超過1000種應用軟件部署在該平臺上。
3、寒武紀:國產AI芯片先行者
寒武紀始終深耕芯片研發,不斷推陳出新、實現技術進步。寒武紀成立于2016年,專注人工智能芯片產品的研發與創新。公司成立之初便開始了對AI芯片領域的探索創新。并在2016年年底成功研發出全球首款AI手機芯片——寒武紀1A。2017年,這款芯片被搭載于華為的高端系統級芯片麒麟970,應用于Mate10手機,并獲得了廣泛好評。芯片可以在功耗極低的前提下,涵蓋人臉識別、語音識別、圖像增強等多種功能。此后,寒武紀又陸續推出了多款AI芯片產品,包括云端訓練芯片MLU100、邊緣推理芯片MLU270、車載推理芯片MLU290等 。這些產品都具有高性能、低功耗、高集成度等特點,在圖像識別、語音識別、自然語言處理等領域都有著優異的表現。
思元370是寒武紀的首款訓練推理一體芯片,也是其云端產品的第三代。思元370采用了7nm制程工藝,并成為首款采用Chiplet技術的人工智能芯片。該芯片最大算力可達256TOPS(INT8),是上一代云端推理產品思元270算力的兩倍,同時該芯片還支持LPDDR5內存,內存帶寬是270的三倍,因此可以在板卡有限的功耗范圍內為人工智能芯片分配更多的能源,從而輸出更高的算力。思元370智能芯片還采用了先進的Chiplet技術,支持靈活的芯粒組合,僅用單次流片便可以實現多款智能加速卡產品的商用。目前,該公司已推出三款加速卡:MLU370-S4、MLU370-X4和MLU370-X8,包含應用于計算密度高的數據中心、針對專注人工智能推理相關業務的互聯網廠商需求和應用于對算力帶寬要求高的訓練任務,滿足用戶的多樣化需求。
新一代訓練芯片寒武紀590還未量產,據悉訓練能力突出。寒武紀最新一代云端智能訓練芯片思元590還未正式發布,據寒武紀董事長在2022 WAIC上介紹,思元590采用全新的MLUarch05架構,實測訓練性能較在售產品有了顯著提升。思元590可提供更大的內存容量和更高的內存帶寬,其PCIe接口也較上代實現了升級。
審核編輯 :李倩
-
芯片
+關注
關注
456文章
51155瀏覽量
426371 -
AI
+關注
關注
87文章
31490瀏覽量
269929 -
人工智能
+關注
關注
1795文章
47642瀏覽量
239733
原文標題:大模型AI興起:新一輪芯片、服務器、智算等浪潮來襲
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論