進入大模型時代,全社會算力需求被推高到了前所未有的程度。
由于大模型AI對于全社會的重要性,以及各行各業加快建設智算中心,也引發了全社會學習異構AI芯片的熱潮。
異構AI芯片出現的現象
2024年1月,微軟聯合創始人比爾·蓋茨與OpenAI首席執行官山姆·奧特曼進行了一次對話,奧特曼在對話中表示人工智能將引發人類歷史上“最快”的一次技術革命,人類可能還沒有準備好以多快的速度適應這種變革。
奧特曼預計,這項技術將迅速發展,使系統的計算能力達到GPT-4的10萬倍或100萬倍。
而為應對GPU全球供應短缺問題,以及美國對GPU的出口限制問題,當然更重要的是在AI場景下降低成本,于是市場上涌現了各類異構AI芯片。
何為異構芯片
異構芯片即結合兩種或多種不同類型的處理器或控制器架構的芯片。
異構芯片可以是CPU+FPGA,CPU+GPU也可以是CPU+AI,也可以是CPU+動態可重構等不同架構,這些架構都是利用一種架構的優勢來彌補另外一種架構的不足,以適應用戶多種用途的應用需求。
Intel的CPU+Altera的FPGA或者AMD的Instinct MI300和英偉達的Grace Hopper超級芯片也是采用“CPU+GPU”的異構形式。
CPU+GPU架構的優勢
CPU和GPU協同工作時,CPU包含幾個專為串行處理而優化的核心,GPU則由數以千計更小、更節能的核心組成,這些核心專為提供強勁的并行運算性能而設計。
程序的串行部分在CPU上運行,而并行部分則在GPU上運行。
GPU目前已經發展到成熟階段,可輕松執行現實生活中的各種應用程序,而且程序運行速度已遠遠超過使用多核系統時的情形。
因此,CPU和GPU的結合剛好可以解決深度學習模型訓練在CPU上耗時長的問題,提升深度學習模型的訓練效率。
CPU與GPU的應用場景也不斷拓寬
隨著CPU與GPU的結合,其相較于單獨CPU與GPU的應用場景也不斷拓寬。
CPU+GPU架構適用于處理高性能計算。伴隨著高性能計算類應用的發展,驅動算力需求不斷攀升,但目前單一計算類型和架構的處理器已經無法處理更復雜、更多樣的數據。
數據中心如何在增強算力和性能的同時,具備應對多類型任務的處理能力,成為全球性的技術難題。
CPU+GPU的異構并行計算架構作為高性能計算的一種主流解決方案,受到廣泛關注。
CPU+GPU架構適用于處理數據中心產生的海量數據。數據爆炸時代來臨,使用單一架構來處理數據的時代已經過去。
比如:個人互聯網用戶每天產生約1GB數據,智能汽車每天約50GB,智能醫院每天約3TB數據,智慧城市每天約50PB數據。
數據的數量和多樣性以及數據處理的地點、時間和方式也在迅速變化。無論工作任務是在邊緣還是在云中,不管是人工智能工作任務還是存儲工作任務,都需要有正確的架構和軟件來充分利用這些特點。
CPU+GPU架構可以共享內存空間,消除冗余內存副本來改善問題。
在此前的技術中,雖然GPU和CPU已整合到同一個芯片上,但是芯片在運算時要定位內存的位置仍然得經過繁雜的步驟,這是因為CPU和GPU的內存池仍然是獨立運作。
為了解決兩者內存池獨立的運算問題,當CPU程式需要在GPU上進行部分運算時,CPU都必須從CPU的內存上復制所有的資料到GPU的內存上,而當GPU上的運算完成時,這些資料還得再復制回到CPU內存上。
然而,將CPU與GPU放入同一架構,就能夠消除冗余內存副本來改善問題,處理器不再需要將數據復制到自己的專用內存池來訪問/更改該數據。
統一內存池還意味著不需要第二個內存芯片池,即連接到CPU的DRAM。
因此,通過CPU+GPU異構并行計算架構組成的服務器,正成為服務器市場中的一匹黑馬。現在已有多家芯片廠商開始跟進。
協同異構AI芯片的挑戰
在實際建設智算中心的時候,到底在GPU、FPGA、DSA和ASIC之間選擇哪種算力和算力組合,這是一個很大的問題。
GPU雖然能夠應對大模型計算需求,但一卡難求以及限制性能等問題嚴重;
DSA靈活性有限,硬件和軟件架構呈現碎片化;
FPGA的功耗和成本較高,主要用于原型驗證,難以在實際場景中大規模落地;
ASIC功能固化,缺乏足夠的靈活性,而且ASIC芯片的研發周期長、成本高和風險大等,都為大規模和長期采用帶來了挑戰。
另外,多異構計算的硬件層次高集成度和系統軟件層次多協同、通用編程模型和開發環境等,都是行業需要解決的問題,多異構共存的異構計算孤島現象越來越突顯。
特別是不同的異構計算編程框架,要求開發者掌握多種編程模式和語言,使得代碼移植面臨巨大挑戰。
尋找一個真正統一、能滿足所有硬件和應用需求的編程方法,仍是當下計算領域的熱門研究課題。
結尾:可發展產業機遇
大模型AI的出現,為重構數據中心帶來了機遇。由于大模型AI天然帶來海量的數據中心內部通信而不是對外通信,在將數據中心重構為智算中心的時候,就帶來了“一個數據中心即為一臺計算機”的設計理念,這就是以系統設計為中心的原則。
以系統設計為中心,即考慮一個數據中心上承載大模型訓練等邏輯上單一的“大應用”,也就是數據中心級的業務系統。
因此在智算中心的設計上要超越硬件和軟件的傳統界限,將整個數據中心作為一個協同工作的系統。
有了以數據中心為一臺計算機的設計理念和角度,就能找到有效的軟硬件協同的異構融合計算之路。
內容及圖片來源于:晶上聯盟
審核編輯:劉清
-
處理器
+關注
關注
68文章
19404瀏覽量
230797 -
控制器
+關注
關注
112文章
16444瀏覽量
179068 -
AI芯片
+關注
關注
17文章
1904瀏覽量
35160 -
異構芯片
+關注
關注
0文章
9瀏覽量
2131
原文標題:趨勢丨2024年再怎么重視“異構芯片”都不為過
文章出處:【微信號:World_2078,微信公眾號:AI芯天下】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論