2024年,大模型技術的迅猛發展成為人工智能領域的核心驅動力,其對硬件算力和存儲效率的極致需求,促使存算一體技術在全球范圍內迎來前所未有的關注與突破。隨著模型參數規模的持續膨脹和應用場景的不斷拓展,存算一體技術作為解決數據傳輸瓶頸、提升計算效率的關鍵方案,展現出巨大的發展潛力。
在大模型的推動下,存算一體技術在學術界和產業界均取得了顯著進展。學術研究聚焦于如何通過存內計算優化大模型的訓練與推理效率,從底層存儲介質的創新到系統架構的優化,為存算一體技術的未來發展提供了豐富的理論支持。與此同時,產業界則通過技術創新和商業化落地,加速了存算一體技術在端側、邊緣計算和數據中心等領域的廣泛應用。從三星與SK海力士推動LPDDR6-PIM 技術的標準化,到后摩智能推出端邊大模型AI芯片,再到d-Matrix首款基于數字存算的AI芯片出貨,這些事件不僅標志著存算一體技術的商業化進程加速,也反映了行業對大模型時代算力需求的積極回應。
隨著技術的不斷成熟和市場需求的持續增長,存算一體技術正逐漸成為推動人工智能、邊緣計算和高性能計算領域發展的關鍵力量。2024年,存算一體技術在大模型背景下的創新與應用,不僅為智能設備和數據中心的性能提升提供了新的解決方案,也為未來技術發展提供了新方向。
Part 1.2024年存算一體行業要事回顧
一、學術界重點研究一覽
1、由 ISSCC 洞察存內計算的學術前沿
ISSCC 是集成電路行業年度的頂級會議,作為每年年初的學術盛會,可以一瞥現階段學術界關注的技術熱點和目前實驗室/研究機構的技術水平。這里將列舉幾個存內計算相關的重點工作,希望能從盡可能多的視角觀察存內計算技術的應用。
11.3 歐洲人工智能的初創公司 Axelera AI 推出一款基于數字 SRAM 存內計算(DIMC)的端側視覺模型推理的SoC。該芯片利用RISC-V CPU、L1 Cache 和 DIMC 單元構建基本的AI core,AI core之間利用NOC互聯,并與系統總控、外設控制互聯。芯片在12nm、144mm2的面積下實現了32 Mb的 SRAM-IMC 容量,達到了209.6 TOPS的計算吞吐以及5~15 W的典型功耗,在 ResNet-50和YoloV5 的模型上展現出極高的幀率和極低的功耗。
論文鏈接:
11.3:
https://ieeexplore.ieee.org/abstract/document/10454395
20.1 聯發科(MediaTeK)提出了一款Mobile SoC中用于圖像超分辨率的處理器,采用數字存內計算單元作為執行卷積的計算單元,芯片采用了一種多個卷積核之間流水處理的架構,在實現任務的靈活分割的同時盡可能最大化復用激活值,提升系統吞吐和能量效率。最終芯片在3nm下實現了 12TOPS/mm2的算力密度和 23.2TOPS/W的系統能效。
論文鏈接:
20.1 :
https://ieeexplore.ieee.org/abstract/document/10454482
30 DSA Section:該Section 聚焦在領域專用的處理器架構,其中不乏使用存內計算技術的工作:
* 30.3 & 30.5 分別利用 SRAM和eDRAM 兩種片上的存儲器的存內計算做算法問題求解,分別針對 SAT 問題和 Ising 問題,利用陣列式存儲器本身的陣列特性去模擬 NP hard 問題的求解;
* 30.6 使用 SRAM-CIM 作為 RSIC-V CPU的向量協處理器,極大提高了計算的通用性。該工作使用數字域的 SRAM-CIM 替代了原本向量協處理器中的向量寄存器(VRF),直接減少了CPU 到 VRF 之間的數據移動,提高系統能效的同時也提升了芯片的算力密度;
論文鏈接:
30.3:
https://ieeexplore.ieee.org/abstract/document/10454397
30.5:
https://ieeexplore.ieee.org/abstract/document/10454272
30.6:
https://ieeexplore.ieee.org/abstract/document/10454387
34 CIM Section:該部分的工作聚焦在具體的存內計算電路設計,存儲器的類型以片上的 SRAM 和 eDRAM 為主:
* 34.1 & 34.2 清華大學和臺灣清華大學分別從數據編碼格式和極致的電路優化兩方面入手,致力于更高精度的存內計算技術。清華大學的研究團隊提出一種 POSIT 的編碼格式,在傳統的浮點數據格式基礎上增加額外一級管理位來適應不同的數據分布形式,基于該格式實現的存內計算宏單元以更低的計算能耗達到了更高的計算精度。臺灣清華大學的研究人員在16 nm下使用4T的 Gain Cell 提高存儲密度,其核心創新在于極細粒度的整型和浮點型計算的重構,在執行整型計算時,浮點的指數加法電路被重構為整型加法樹,而浮點對指電路被重構為整型計算中的稀疏檢測電路,極大地提高了重構效率;
論文鏈接:
34.1:
https://ieeexplore.ieee.org/abstract/document/10454567/
34.2:
https://ieeexplore.ieee.org/abstract/document/10454447
* 34.3 & 34.6 東南大學和后摩智能團隊以及中科院微電子研究所的團隊均采用了數字模擬混合的方式試圖在計算精度和計算能效之間做出權衡。東南大學和后摩智能的團隊采用了一種“閃電型”比特擴展的存內計算方式,相較于之前的數模混合的分割方案更好地權衡了計算精度和計算能效,使用的模擬多周期累加的方案也更適合累加長度更大的網絡部署。微電子所團隊的工作使用模擬存內計算+數字存外計算保障計算精度的同時提升計算能效,其采用外積計算數據很好地重構了整型/浮點的數據類型;
論文鏈接:
34.3:
https://ieeexplore.ieee.org/abstract/document/10454278
34.6:
https://ieeexplore.ieee.org/abstract/document/10454313
2、存內計算相關研究在計算機體系結構領域頂會上持續火熱
四月,ASPLOS 在美國圣地亞哥召開,來自中科院計算所的工作:CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators 提出了面向存算多種類存算一體芯片的多層次開源編譯框架,作為連接多種類的存算硬件與多種類的算法算子之間的中間層。存內計算作為一種新的硬件架構范式,對其軟件編譯的討論十分重要。
論文鏈接:
https://dl.acm.org/doi/abs/10.1145/3620665.3640359
同樣是 ASPLOS 上,來自北京大學和 KAIST 的研究人員都基于目前已有商用的 DRAM-PIM 和傳統 NPU/GPU 的協同工作系統,分別對大語言模型加速的兩種技術:Speculative Inference 和 Batched Inference做架構設計探索,形成兩套軟硬件協同設計:SpecPIM 和 NPU-PIM。其中,SpecPIM 敏銳地捕捉到了 Speculative Inference 中大模型和小模型同時推理時算法需求的異質性與 GPU+DRAM-PIM 的硬件能力異質性相吻合,亟需一套架構-數據流的協同探索以發現推理時最優的軟件-硬件配置。而在 NPU-PIM 中,研究人員發現在服務器端 Batch size 很大的推理場景時,ffn 算子為計算密集型算子,而 Attention 算子由于每個 Batch對應的KV Cache 不同,為存儲密集型算子。與 SpecPIM 一樣,這種算法需求上的異質性在 NPU+DRAM-PIM 的系統中同樣存在強的協同設計需求,啟發了研究人員的軟硬件協同設計方法,包含軟件上的數據流調度和 PIM 計算單元的電路優化。
論文鏈接:
https://dl.acm.org/doi/abs/10.1145/3620666.3651352
https://dl.acm.org/doi/abs/10.1145/3620666.3651380
六月底,ISCA 在阿根廷布宜諾斯艾利斯召開,清華大學和上海交通大學都捕捉到了目前已有的 DRAM-PIM 芯片中計算Bank間調度受限的問題,利用軟硬件協同設計和內存空間管理形成兩套解決辦法:NDPBridge 和 UM-PIM。其中,NDPBridge 在硬件上設計了一套Bank 和 Bank 之間以及 Rank 和 Rank 之間數據包收集和派發的橋接路由單元,軟件上提出一套數據傳輸感知的調度策略,最小化交互的延遲開銷。UM-PIM 提出了一種具有統一和共享內存空間的 DRAM-PIM 系統,允許 CPU 和 PIM 所需要的兩種不同數據排布的頁面共存于同一個內存空間中,最小化因 PIM 本身特性導致的冗余的數據重排拷貝。UM-PIM 在硬件層面通過在 PIM 的 DIMM一側設計硬件接口,實現物理到硬件地址的動態映射,加速數據重新布局過程的同時降低了 CPU 與PIM 之間的通信開銷,有效提升系統性能。
論文鏈接:
https://ieeexplore.ieee.org/abstract/document/10609679/
https://ieeexplore.ieee.org/abstract/document/10609641
十一月初,MICRO 在美國德克薩斯召開,中科院計算所發表一篇基于芯粒互聯的 Flash內計算的邊緣端大模型推理芯片,該設計在 3D-Nand Flash 原本的數據讀出Cache die上集成計算單元和Ecc 糾錯,用于大模型推理中的ffn算子的矩陣乘,再通過2.5D封裝工藝集成Flash和處理attention 算子的 NPU,在系統外部外掛 DRAM 存儲推理過程產生的動態KV Cache。該設計利用先進的封裝工藝和近 Flash 的存內計算將大容量 NvM 提升到更高的層級,顛覆了傳統的體系結構中的存儲層級,為邊緣端大模型的推理提供更大的存儲容量和更高效的數據調度方案。
論文鏈接:https://ieeexplore.ieee.org/abstract/document/10764574
RPTQ(Reorder-based Post-training Quantization)是后摩智能團隊與華中科技大學等合作單位提出的一種全新的量化方法,旨在解決量化Transformer 時激活通道之間的數值范圍差異問題。相較于以往的研究,RPTQ 首次將3位激活引入了 LLMs,實現了顯著的內存節省,例如在量化 OPT-175B 模型方面,內存消耗降低了高達80%。RPTQ 的關鍵思想是通過重新排列激活通道并按簇量化,從而減少通道范圍差異的影響。同時,通過操作融合,避免了顯式重新排序的操作,使得 RPTQ的開銷幾乎為零。通過這種方法,RPTQ 有效地解決了激活通道數值范圍差異導致的量化誤差問題。
論文鏈接:
https://arxiv.org/abs/2304.01089
五月,ICLR 在奧地利維也納召開,后摩智能團隊與伊利諾伊理工和伯克利大學等單位合作提出的另一種創新性量化方法 PB-LLM,相較于傳統的二值化方法,PB-LLM 采用了部分二值化的策略,即將一部分顯著權重分配到高位存儲,從而在實現極端低位量化的同時,保持了Transformer 的語言推理能力。通過對顯著權重的充分利用,PB-LLM取得了顯著的性能提升,為Transformer 的內存消耗和計算復雜度提供了有效的解決方案。這是學術界首次探索對Transformer 權重數值二值化的工作,助力大語言模型在存內計算中的應用。
論文鏈接:
https://arxiv.org/abs/2310.00034
二、產業界重點事件盤點
1、三星與SK海力士推動 LPDDR6-PIM 技術的標準化與應用
2024年,三星電子與SK海力士攜手合作,致力于標準化“低功耗雙倍數據速率6(LPDDR6)-內存處理(PIM)”產品。這一合作標志著存算一體技術在移動端應用的又一重要里程碑。三星積極響應蘋果的需求,著力研究新的低功耗雙倍數據速率LPDDR DRAM封裝方式,并計劃在iPhone DRAM中應用LPDDR6-PIM 技術。
這一舉措不僅旨在提升端側AI性能,還在數據處理速度和能效方面帶來顯著突破,有望改變消費電子設備存儲芯片的應用格局。通過標準化進程,LPDDR6-PIM 技術能夠更高效地應用于各類數據密集型任務場景,例如在金融領域的信貸風險評估中,可大幅縮短評估時間;在電商的商品推薦系統中,能顯著提升推薦準確率。這一合作有力地促進了存算一體技術在行業應用中的規范化和規模化發展,為未來智能設備的性能提升奠定了堅實基礎。
2、后摩智能推出端邊大模型AI芯片后摩漫界M30
2024年,國內AI芯片企業后摩智能成功推出基于存算一體架構的邊端大模型AI芯片——后摩漫界M30,以及配套的計算模組、計算盒子、AI加速卡等系列硬件產品,實現了存算一體技術在端邊大模型領域的應用突破。M30將存儲與計算集成在同一芯片上,有效解決了傳統架構中數據傳輸延遲的問題,極大地提高了計算效率和吞吐量。M30提供100至256TOPS算力,功耗為12至35W,支持 ChatGLM、Llama2、通義千問等多種大模型。在AI PC、智能座艙、NAS 等設備中, M30 展現出卓越的大模型運行能力,為端邊大模型的商業化落地提供了堅實可靠的算力支撐。
這一成果不僅推動了存算一體技術在邊緣計算領域的廣泛應用,也為智能設備的高效運行提供了新的解決方案,進一步拓展了存算一體技術在消費電子和工業自動化等領域的應用前景。后摩智能已與聯想集團達成戰略合作,結合后摩智能在存算一體AI芯片領域的創新優勢和聯想在PC領域的深厚積累,共同推動AI算力向邊緣側和端側下沉。
3、d-Matrix 首款AI芯片出貨,數字存算一體技術助力性能飛躍
2024年11月,微軟支持的硅谷初創公司 d-Matrix 宣布其首款AI芯片 Corsair正式出貨,標志著存算一體技術在高性能計算領域的商業化取得重大突破。Corsair 芯片在單臺服務器中為 Llama3 8B 模型提供每秒處理60,000個tokens 的性能,每個token 延遲僅為1毫秒,交互速度提升10倍,能效提高3倍。其關鍵亮點包括 150TB/s 的超高內存帶寬、2400 TFLOP 的8位峰值計算能力和2GB 集成性能內存,以及高達256GB 的片外容量內存。
d-Matrix 通過 DIMC 技術,將計算單元直接集成到存儲器中,減少了數據移動,顯著降低了延遲和能耗。這種架構特別適合AI推理任務,能夠有效消除數據移動帶來的能耗和延遲。Corsair 的推出不僅展示了存算一體技術在高性能計算領域的巨大潛力,還為AI芯片市場注入了新的活力,為存算一體技術的廣泛應用提供了有力證明。
4、Graphcore 被日本軟銀集團收購
2024年7月15日,英國的 Graphcore 公司被日本軟銀集團收購。盡管交易細節尚未公開,但此次收購使 Graphcore 得以繼續運營并保留其管理團隊。此前,Graphcore 推出的智能處理單元(IPU)芯片曾被視為英偉達的有力競爭者。
此次收購事件不僅為 Graphcore 帶來了新的發展機遇,也給存算一體芯片市場的競爭態勢和產業布局帶來了新的變數。軟銀集團的介入可能會引發行業內的資源整合與技術融合,進一步推動存算一體技術在全球范圍內的發展和應用。
Part 2.2025年存算一體技術與應用趨勢展望
1、多樣化的存內計算技術涌現
隨著大模型技術的快速發展,存內計算技術將呈現多樣化和多層次化的發展趨勢。基于不同存儲介質的存內計算方案,如 Flash、SRAM、DRAM和RRAM(憶阻器)等,將并行發展以滿足多樣化的應用場景需求。Flash 存內計算以其低功耗和小算力的特點,適用于智能穿戴設備等端側場景;SRAM 作為當前最成熟的存儲介質,SRAM 的制作工藝、研發工具和 CMOS 集成的電路模型都更加成熟穩定,同時 SRAM 具有更快的操作速度和耐久性,可以實時在存算單元中刷新計算數據,為大算力提供重要的保障;DRAM 能夠在相同芯片面積上實現比 SRAM 更高的存儲密度,這使得能夠提供大容量的內存,更適合數據中心和AI訓練等高性能需求場景。
新型存儲工藝包括 RRAM、MRAM 等,相比于傳統的非易失存儲(如Flash), 新型存儲的讀寫性能更好、具備更好的工藝可擴展性。從端側到邊緣側(如自動駕駛)再到云端(如大模型訓練),存內計算技術將根據不同場景提供從低功耗到高性能的多樣化解決方案。同時,存內計算還將與感存算一體、近存計算等技術深度融合,形成多層次的技術生態,滿足從數據采集到處理的全鏈條需求。
2、DRAM 存內計算硬件商業化加速
2025年,基于 DRAM 的存內計算硬件將迎來商業化加速。三星、SK海力士等半導體巨頭已推出 HBM-PIM(高帶寬內存存內計算)產品,通過在DRAM芯片中嵌入計算單元,顯著提升了AI訓練和推理的效率。例如,三星的 HBM-PIM 在AI氣候模擬項目中實現了性能提升2.5倍、能耗降低60%的優異表現。DRAM存內計算通過減少數據搬運,大幅降低了硬件成本和功耗。以數據中心為例,采用該技術后,硬件成本可降低50%,運營成本減少20%-30%。隨著JEDEC 等標準組織的推動,DRAM 存內計算的接口和架構將逐步統一,這將有力促進產業鏈上下游的協同發展,加速存內計算技術在數據中心等領域的廣泛應用。
3、先進封裝技術助力存內計算架構升級
2025年,2.5D、3D 和3.5D 等先進封裝技術將繼續推動存內計算架構的升級。通過將計算芯片和存儲芯片緊密堆疊,這些技術能夠有效縮短數據傳輸路徑,大幅提升訪存帶寬。AMD和Intel采用2.5D封裝的 HBM 技術已在高性能計算領域取得顯著成效,驗證了先進集成技術在存內計算中的巨大潛力。
3D 封裝技術通過將計算單元和存儲單元垂直堆疊,實現了更極致的存算融合,不僅提升了芯片的集成度,還顯著降低了功耗和延遲,特別適用于AI推理和邊緣計算場景。作為3D 封裝的升級版,3.5D 技術引入了更復雜的互連結構和散熱方案,進一步提升了芯片的性能和可靠性。例如,臺積電的3.5D 封裝技術已在AI芯片中實現商用,為存內計算新架構的發展提供了有力支持。
-
存算一體
+關注
關注
0文章
103瀏覽量
4315 -
后摩智能
+關注
關注
0文章
25瀏覽量
1237 -
大模型
+關注
關注
2文章
2533瀏覽量
3004
原文標題:大模型驅動下的存算一體技術:2024年回顧與2025年前瞻
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論