新一輪人工智能熱潮下,國內大模型群雄逐鹿,目前已有超過80個大模型公開測試。而相關數據顯示,ChatGPT自發布以來,全球訪問量環比增幅持續下降,6月首次出現環比下滑9.7%。泡沫退去,如何在大模型時代保持市場競爭力?
針對大模型場景,昆侖芯早已在產品定義上作出布局,相較第一代產品,昆侖芯2代AI芯片可大幅優化算力、互聯和高性能,而在研的下一代產品則將提供更佳的性能體驗。
在近日落幕的XceedCon2023人工智能芯片生態大會上,昆侖芯大模型端到端解決方案正式發布,該解決方案隨即入選2023世界人工智能大會卓越人工智能引領者獎(Super AI Leader,簡稱SAIL獎)TOP30榜單。
昆侖芯副總裁王勇、昆侖芯互聯網行業總經理王志鵬先后在XceedCon2023人工智能芯片生態大會、2023世界人工智能大會對昆侖芯大模型端到端解決方案進行發布與推介。本篇以下內容整理自現場實錄。
軟硬協同、技術創新
打造高性能產品矩陣
集十余年AI加速領域研發積累,昆侖芯核心團隊于2017年在Hot Chips上發布自研、面向通用人工智能計算的芯片核心架構——昆侖芯XPU。目前,已有兩代昆侖芯AI芯片基于該架構實現量產和規模部署。
昆侖芯XPU專為密集型計算而設計,相比GPU可提供更多AI加速單元,同時支持C/C++、類CUDA語法編程,兼具高性能和可編程性,適配幾乎所有主流AI場景,滿足不同行業的大模型訓推需求。
大模型的演進必將伴隨參數量的增加,更加依賴于分布式訓練與推理能力。昆侖芯2代系列產品搭載新一代核心架構XPU-R,性能相較一代提升2-3倍,在分布式場景中優勢明顯。
01.
大顯存
昆侖芯2代產品擁有32GB顯存容量,在同價位產品中內存優勢突出。
02.
高互聯
昆侖芯通過領先技術,可實現單機八卡高速互聯,帶寬達到200GB/s;支持Direct RDMA,可實現跨機間低延時、高速通訊。
昆侖芯推出針對不同參數級別的大模型產品矩陣,兼具顯存和算力成本優勢。
昆侖芯AI加速卡R200-8F面向百億以內參數量級,相比同類型產品性能提升20%;
昆侖芯AI加速器組R480-X8面向百億至千億參數量級,性能達到同類型產品的1.3倍以上;
昆侖芯AI加速器組R480-X8集群針對千億以上參數量級,可實現多機多卡分布式推理。
昆侖芯大模型解決方案軟件棧
軟件生態層面,昆侖芯提供了針對大模型場景的專用加速庫、豐富的云原生插件,支持文心一言、LLaMA、Bloom、ChatGLM、GPT等行業主流大模型。
昆侖芯XFT(XPU Fast Transformer)推理加速庫,較原生框架小算子版本性能提升5倍以上。目前,XFT加速庫已與百度飛槳、PyTorch等主流深度學習框架完成適配;
昆侖芯云原生插件可幫助用戶快速完成和大模型平臺的適配;同時提供昆侖芯SDK,幫助用戶快速完成適配和實時自定義開發。
昆侖芯xHuggingface開源推理套件
此外,昆侖芯全面擁抱開源社區,積極攜手生態伙伴構建軟硬一體的AI芯片生態。
昆侖芯打造了xHuggingface開源推理套件,僅修改1-2行代碼,即可快速搭建基于XPU的智能客服APP。同時,昆侖芯與飛槳PaddlePaddle的AI Studio社區緊密合作,基于xHuggingface開源推理套件向廣大開發者提供更快、更強、更省的算力產品;
昆侖芯與飛槳深入協同適配行業主流大模型,可支持超大規模分布式訓練與推理。針對稠密大模型,昆侖芯支持飛槳的Sharding并行、數據并行、模型并行、流水線并行四種并行方式;針對稀疏大模型,昆侖芯與飛槳共同打造大規模參數服務器架構,實現了萬億參數的大模型訓練。
深入場景、真實歷練
打磨端到端解決方案
昆侖芯深入了解不同應用場景下客戶的真實需求,憑借軟硬協同技術與高性能產品矩陣,為千行百業提供開箱即用的產品和全棧式AI服務。
大語言模型場景
昆侖芯推理加速方案
目前,昆侖芯已與業界主流開源大模型完成適配,向客戶開放開源軟件庫,供客戶進行二次修改、微調,滿足不同推理場景下的個性化定制需求。
GPT百億參數大模型場景:昆侖芯產品的QPS相比主流165W產品提高30%以上,同時首字時延更低。
文心一格:目前已大規模應用昆侖芯產品,成本降低的同時,可實現2秒快速出圖。
昆侖芯訓練產品總覽
針對大語言模型訓練場景,昆侖芯也可提供一整套精調的訓練策略。目前,昆侖芯已適配pretrain、post-pretrain、SFT、LoRA等模型,可根據客戶的數據量與計算資源情況,靈活推薦不同的訓練模式。
能源行業:昆侖芯解決方案通過SFT訓練模式,客戶僅使用少量數據即可2天打造專屬行業大模型。
智源研究院:昆侖芯和智源研究院在大模型方面已有深入合作。昆侖芯已完成和Aquila大語言模型推理任務的適配、精度調試和性能優化,并實現大規模分布式推理上線,訓練任務適配優化中;同時也適配了智源eva視覺大模型,初步驗證了大規模分布式預訓練能力。
稀疏大模型推薦場景
稀疏大模型存在訓練門檻高、算力消耗大等技術挑戰。對于算法和模型持續高頻迭代的推薦場景,昆侖芯始終將“安全可信”、“從GPU零成本無縫遷移”作為目標,實現訓練與推理系統的緊密耦合,為客戶降本增效。目前,昆侖芯已與互聯網頭部客戶完成了訓練場景的端到端聯合開發,并在TB級以上稀疏大模型上完成了“替換主流GPU的全量上線”。
大模型的持續迭代加速了我國AI技術及AI產業的演進,利好政策的相繼出臺同時開啟了我國大模型商用浪潮。面向未來,昆侖芯將始終堅持軟硬協同創新,夯實AI領域綜合優勢,加速大模型產業落地,勇立大模型時代潮頭。
責任編輯:彭菁
-
gpu
+關注
關注
28文章
4767瀏覽量
129199 -
開源
+關注
關注
3文章
3395瀏覽量
42634 -
昆侖芯科技
+關注
關注
0文章
28瀏覽量
639
原文標題:來了!一文讀懂昆侖芯大模型端到端解決方案
文章出處:【微信號:昆侖芯科技,微信公眾號:昆侖芯科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論