隨著大模型概念火熱,算力成為各行各業關注的熱門話題。英偉達顯卡被搶爆,媒體關注“大模型時代到來,算力夠不夠”,行業想要解決AIGC時代的算力瓶頸問題。然而,發展大模型,是否解決算力問題就夠了?
01 算力是大模型的底座
大模型是在智能算力驅動下最為典型的重大創新。得益于模型泛化能力強、長尾數據的低依賴性、以及下游模型使用效率的提升,大模型被認為具備了“通用智能”的雛形,并成為業內探索實現普惠人工智能的重要途徑之一。從算力的視角看,語言類、視覺類模型容量和相應的算力需求都在快速擴大,大模型發展的背后是龐大的算力支撐。作為算法的結晶,需要處理大量的數據。人工智能背后需要大量的硬件支撐,已經成了新時代的“重工業”產品。
算力決定了數據處理能力的強弱。算力芯片是算力的具體載體,高算力芯片能夠提供超算算力、通用算力、智能算力和邊緣算力。搭載率最高的GPU芯片多用于圖形圖像處理、復雜的數學計算等場景,可較好支持高度并行的工作負載,經常用于數據中心的模型訓練,或用于邊緣側和端側的推理工作負載。
服務器是算力的基礎設施之一。服務器的邏輯架構和普通計算機類似,但是由于需要提供高性能計算,因此在處理能力、穩定性、可靠性、安全性、可擴展性、可管理性等方面要求較高。人工智能服務器由于具備圖形渲染和海量數據的并行運算等優勢,能夠快速準確地處理大量數據,市場價值逐漸凸顯。
隨著數據應用的搭載率較低的NPU芯片,設計邏輯則更為簡單,常用于邊側和端側的模型推理,并生成結果,在處理推理工作負載時,具有顯著的能耗節約優勢。根據IDC統計,2021年中國仍以GPU為主實現數據中心計算加速,市場占有率近90%,ASIC、FPGA、NPU等非GPU芯片市場占有率超過10%。據IDC預計,到2025年人工智能芯片市場規模或將達726億美元。
IDC數據顯示,2021年全球人工智能服務器市場的同比增速超過全球整體人工智能市場的增速,是整體人工智能市場增長的推動力。IDC發布的《全球人工智能市場半年度追蹤報告》顯示,2021年全球人工智能服務器市場規模達156.3億美元,約合人民幣1,045億元,這是全球年度人工智能服務器市場首次突破千億元人民幣,同比2020年增速達39.1%。
這樣的背景下,國內算力芯片公司“快馬揚鞭”。例如,龍芯中科計劃明年下半年將完成兼顧顯卡和算力加速功能的專用芯片流片;龍芯GPU的定位主要是為了與CPU形成自我配套,形成系統優勢,降低系統成本。
02 國產存力需要重視
數據存力指的是以存儲容量為核心,包含性能表現、安全可靠、綠色低碳在內的綜合能力。
在國家數字經濟大戰略下,數據作為生產要素,已成為重要的資產。隨著海量數據呈指數級增長,數據流動加速,存儲作為承載數據的關鍵設施,其重要性更加凸顯。作為數據大國,數據存儲產業就需要跟上。大模型正在帶動各地建設AI算力中心,但是產業主要關心的都是運算力。倪光南院士認為算力中心的計算能力由三個因素決定:存力、算力、運力。倪光南院士認為,用廣義算力去定義一個算力中心,才更準確。如果去計算存算比的話,美國的算力中心存算比為1.11TB/GFlops,中國約為美國的37.8%。
我國數據存力發展總體水平與發達國家相比仍有一定差距。據羅蘭公司測算,美國單位GDP存儲容量高于我國,我國存儲在經濟發展中的支撐作用有待加強。據中國信通院統計,2021年我國存儲總量容量已達800EB,出貨量年均增長速度已達50%。
為了發展國產算力,在技術方面,需要加快部署下一代存儲技術,推動存儲核心技術底層研發和技術攻關,提升存儲介質、安全設計、數據防護等關鍵技術水平,打造全球存儲的創新高地。存儲領域正在發生一場新的技術變革,即基于半導體技術的新型產品替代基于機械技術的傳統產品,這一個正在加速進行的客觀趨勢。SSD可以實現用先進的壓縮算法,把數據更好地壓縮,可以去重,可以更好的加密解密,用新的文件系統等等。
在標準方面,應盡快研究建立存儲的行業規范和標準,完善數據存儲效率、數據保護、數據災備、綠色低碳等數據存力關鍵標準體系。存儲相關企業及研究機構進行標準和評估體系研究,鼓勵行業龍頭企業通過硬件開放、軟件開源、使能生態伙伴等策略,給予合作伙伴尤其是創新型小微企業充分的發展空間,共同摸索形成存儲行業標準;另一方面,推進數據存儲產業國際交流與合作,加強與國際標準組織的合作,加速我國技術標準的國際化進程,積極參與數據存儲國際規則和技術標準制定。
在人才培養方面,存力市場有必要進一步完善數據產業人才培養機制,建立多層次、多元化的人才培養系統,鼓勵培養專業理論與行業知識兼備的復合型人才,鼓勵地方政府引導企業完善人才激勵機制,引進和留住高端存儲專業人才,優化人才的地域和行業布局。存力產業,包括數據存儲,數據管理技術。目前國內對存儲的概念還停留在一個小的部件,沒有把它上升到一個產業的高度。
有強大先進的數據存儲產業作為支撐,才能有發展算力主動權。
03 國產運力,沉默的搬運工
如果說存力已經開始逐漸受到重視,那么國產運力相對來說可能還是一個“小透明”。但對于大模型訓練來說,“運力”已經成為關鍵因素。英特爾公司高級副總裁兼網絡與邊緣事業部總經理Sachin Katti表示,在云端訓練大模型,單個服務器已無法承載,對網絡需求的高要求前所未有,“我們訓練一個大模型就需要5萬-20萬臺服務器,需要通過網絡來把這些服務器連接起來然后進行訓練,這個量是非常大的。”
數字世界的運力,指的是數據傳輸流轉的能力,由帶寬、時延、安全可靠等要素組成。面對強勁的算力需求,英偉達推出了云算力平臺,企業可以租用算力,谷歌、微軟AZURE等云算力平臺會為其提供算力支持。而與租用的服務器的鏈接也會成為影響企業模型訓練的因素。
各類智能化應用的普及,導致大量視頻數據、科研數據需要流動、調度、分析處理,帶來的網絡壓力和運力負擔也越來越大。
中國移動通信研究院發布的《面向AI大模型的智算中心網絡演進白皮書》測算,以1750億參數規模的GPT-3模型訓練為例,從理論估算模型分析,當動態時延從10us提升至1000us時,GPU有效計算時間占比將降低接近10%;當網絡丟包率為千分之一時,GPU有效計算時間占比將下降13%;當網絡丟包率達到1%時,GPU有效計算時間占比將低于5%。“如何降低計算通信時延、提升網絡吞吐是AI大模型智算中心能夠充分釋放算力的核心問題。”
對于大模型來說,在訓練大模型時,模型參數存儲于加速器(如GPU顯卡)的片外緩存中,隨著訓練進程對模型參數進行不斷更新迭代。在訓練過程中,不同加速器之間需要進行頻繁且大量的數據交換,在數據交換完成之后,才能夠去算下一步的訓練結果。從這個角度來說,好“運”,才能好“算”。在這一點上,英特爾除了提供CPU、獨立顯卡等芯片,滿足人工智能模型訓練、推理對算力的要求外,也提供了針對網絡的IPU(Infrastructure Processing Unit)產品。
從這一角度來看,在AI芯片賽道已經有巨頭把控且新玩家層出不窮的情況下,布局運力系統或許是另一片藍海。更重要的是,從宏觀角度來看,運力是將算力和存力高效傳輸給終端用戶,它在基礎設施中起到非常重要的作用。以被熟知的“東數西算”工程為例,它還包含西數西算、南數南算、東數西存等,而實現這些規劃的前提是要有強有力的運力做支撐。運力網絡要讓用戶在調用成百上千公里以外的計算資源時的體驗與調用隔壁工作站的資源沒什么區別。對于一個城市的大數據中心,就需要實現城市乃至國家層面綜合調度的能力。
在“三力”基礎上打造智慧管控能力,實現高效調度,才有希望實現算力一體化服務。不久前,成都最新發布政策,指出將圍繞“算力”“存力”“運力”等關鍵領域,大力發展芯片、服務器整機、液冷設備等高端硬件。顯然,行業已經意識到,對于發展大模型,全面發展不能僅堆算力芯片。
審核編輯:劉清
-
存儲器
+關注
關注
38文章
7528瀏覽量
164194 -
加速器
+關注
關注
2文章
806瀏覽量
38018 -
數據存儲
+關注
關注
5文章
983瀏覽量
51001 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239691 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5881
原文標題:發展國產大模型,不能只堆算力
文章出處:【微信號:ICViews,微信公眾號:半導體產業縱橫】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論