處理器、內(nèi)存發(fā)展速度不均衡,“存儲(chǔ)墻”如今成為數(shù)據(jù)計(jì)算一大障礙。隨著近幾年云計(jì)算和人工智能應(yīng)用的發(fā)展,面對(duì)計(jì)算中心的數(shù)據(jù)洪流,數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問題成為了計(jì)算的關(guān)鍵瓶頸。在過去二十年,處理器性能速度提升遠(yuǎn)超內(nèi)存性能提升,長(zhǎng)期下來,不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度。
在傳統(tǒng)計(jì)算機(jī)的設(shè)定里,存儲(chǔ)模塊是為計(jì)算服務(wù)的,因此設(shè)計(jì)上會(huì)考慮存儲(chǔ)與計(jì)算的分離與優(yōu)先級(jí)。從處理單元外的存儲(chǔ)器提取數(shù)據(jù),搬運(yùn)時(shí)間往往是運(yùn)算時(shí)間的成百上千倍,整個(gè)過程的無用能耗大概在60%-90%之間,能效非常低,“存儲(chǔ)墻”成為了數(shù)據(jù)計(jì)算應(yīng)用的一大障礙。
1、消除馮諾依曼計(jì)算架構(gòu)瓶頸,存算一體應(yīng)運(yùn)而生
人工智能應(yīng)用興起,“存儲(chǔ)墻”下存算一體技術(shù)應(yīng)運(yùn)而生。應(yīng)用發(fā)展至今,人工智能的出現(xiàn)驅(qū)動(dòng)了計(jì)算型存儲(chǔ)/存算一體/存內(nèi)計(jì)算的發(fā)展。人工智能算法的訪存密集(大數(shù)據(jù)需求)和計(jì)算密集(低精度規(guī)整運(yùn)算)的特征和為計(jì)算型存儲(chǔ)/存算一體/存內(nèi)計(jì)算的實(shí)現(xiàn)提供了有力的條件。如今,存儲(chǔ)和計(jì)算不得不整體考慮,以最佳的配合方式為數(shù)據(jù)采集、傳輸和處理服務(wù)。
存算一體(Computing in Memory)是在存儲(chǔ)器中嵌入計(jì)算能力,以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。存算一體技術(shù)直接利用存儲(chǔ)器進(jìn)行數(shù)據(jù)處理或計(jì)算,從而把數(shù)據(jù)存儲(chǔ)與計(jì)算融合在同一個(gè)芯片的同一片區(qū)之中,可以徹底消除馮諾依曼計(jì)算架構(gòu)瓶頸。存算一體的優(yōu)勢(shì)是打破存儲(chǔ)墻,消除不必要的數(shù)據(jù)搬移延遲和功耗,并使用存儲(chǔ)單元提升算力,成百上千倍的提高計(jì)算效率,降低成本。 存算一體有近內(nèi)存計(jì)算(NMC)、存儲(chǔ)級(jí)內(nèi)存(SCM)、近存儲(chǔ)計(jì)算(NSC)及存內(nèi)計(jì)算(IMC)等技術(shù)方向。 近內(nèi)存計(jì)算(NMC):“捆綁”緩存+內(nèi)存,通常會(huì)選用3D封裝,利用TSV(硅通孔技術(shù))實(shí)現(xiàn)垂直通信,但成本高,不同型號(hào)的芯片帶還要匹配大小,進(jìn)行預(yù)設(shè)計(jì)和流片。在以上工作的基礎(chǔ)之上,還要考慮通用性問題,它適用于AI,機(jī)器學(xué)習(xí)和數(shù)據(jù)中心等規(guī)模型應(yīng)用需求。另一種是2.5D封裝,主流技術(shù)是HBM(高帶寬內(nèi)存),與平面板級(jí)連線不同,加入了interposer這種特殊有機(jī)材料(線寬,節(jié)點(diǎn)間距優(yōu)于電路板)作為中間轉(zhuǎn)接層,它像一個(gè)有底座的硅芯片,CPU周邊增加很多“凹槽”,連接多個(gè)HBM(DRAM芯片)堆棧實(shí)現(xiàn)高密度和高帶寬。
存儲(chǔ)級(jí)內(nèi)存(SCM):常見的是由英特爾和美光推出的3D Xpoint,基于相變存儲(chǔ)技術(shù),速度介于SSD和內(nèi)存之間,目前可以和DRAM配合使用,適用于規(guī)模型應(yīng)用場(chǎng)景。 近存儲(chǔ)計(jì)算(NSC):將SSD控制器加上計(jì)算功能,或者讓擁有計(jì)算模塊的FPGA來處理數(shù)據(jù)并且充當(dāng)閃存控制器,不通過CPU進(jìn)行讀取計(jì)算,而是直連存儲(chǔ)器和計(jì)算,以此提升計(jì)算效率。
存內(nèi)計(jì)算(IMC):利用存儲(chǔ)器的單元模擬特性做計(jì)算。CPU是二進(jìn)制邏輯計(jì)算,而存內(nèi)計(jì)算則是利用存儲(chǔ)器內(nèi)電阻特性進(jìn)行計(jì)算,不只是用來區(qū)分電阻高低,而是通過電阻值來區(qū)分多種狀態(tài),僅僅用一個(gè)晶體管就可以完成一次乘法計(jì)算過程。
2、成熟存儲(chǔ)介質(zhì)、新型存儲(chǔ)介質(zhì)齊發(fā)展
存算一體有Flash、SRAM、DRAM等成熟存儲(chǔ)介質(zhì),同時(shí)ReRAM、MRAM等新型存儲(chǔ)介質(zhì)也在快速發(fā)展。根據(jù)存儲(chǔ)介質(zhì)的不同,存內(nèi)計(jì)算芯片可分為基于傳統(tǒng)存儲(chǔ)器和基于新型非易失性存儲(chǔ)器兩種。
傳統(tǒng)存儲(chǔ)器包括SRAM,DRAM和Flash等;新型非易失性存儲(chǔ)器包括ReRAM,PCM,F(xiàn)eFET,MRAM等。其中,距離產(chǎn)業(yè)化較近的是基于NOR Flash和基于SRAM的存內(nèi)計(jì)算芯片。
3、HBM:HBM技術(shù)下,DRAM由2D轉(zhuǎn)為3D
HBM(High Bandwidth Memory)即高帶寬存儲(chǔ)器,按照J(rèn)EDEC的分類,HBM屬于GDDR內(nèi)存的一種,其通過使用先進(jìn)的封裝方法(如TSV硅通孔技術(shù))垂直堆疊多個(gè)DRAM,并與GPU封裝在一起。業(yè)界希望通過增加存儲(chǔ)器帶寬解決大數(shù)據(jù)時(shí)代下的“內(nèi)存墻”問題,HBM便應(yīng)運(yùn)而生。存儲(chǔ)器帶寬是指單位時(shí)間內(nèi)可以傳輸?shù)臄?shù)據(jù)量,要想增加帶寬,最簡(jiǎn)單的方法是增加數(shù)據(jù)傳輸線路的數(shù)量。
據(jù)悉,典型的DRAM芯片中,每個(gè)芯片有八個(gè)DQ數(shù)據(jù)輸入/輸出引腳,組成DIMM模組單元之后,共有64個(gè)DQ引腳。而HBM通過系統(tǒng)級(jí)封裝(SIP)和硅通孔(TSV)技術(shù),擁有多達(dá)1024個(gè)數(shù)據(jù)引腳,可顯著提升數(shù)據(jù)傳輸速度。HBM技術(shù)之下,DRAM芯片從2D轉(zhuǎn)變?yōu)?D,可以在很小的物理空間里實(shí)現(xiàn)高容量、高帶寬、低延時(shí)與低功耗,因而HBM被業(yè)界視為新一代內(nèi)存解決方案。
4、HBM:較傳統(tǒng)GDDR帶寬、功耗等性能優(yōu)勢(shì)明顯
更高速、更高帶寬:最新的HBM3的帶寬最高可以達(dá)到819 GB/s,而最新的GDDR6的帶寬最高只有96GB/s,CPU和硬件處理單元的常用外掛存儲(chǔ)設(shè)備DDR4的帶寬更是只有HBM的1/10。 更高位寬:采用3D堆疊技術(shù)之后,其下方互聯(lián)的觸點(diǎn)數(shù)量遠(yuǎn)遠(yuǎn)多于DDR內(nèi)存連接到CPU的線路數(shù)量。從傳輸位寬的角度來看,4層DRAM裸片高度的HBM內(nèi)存總共就是1024 bit位寬。很多GPU、CPU周圍都有4片這樣的HBM內(nèi)存,則總共位寬就是4096bit。
更低功耗:HBM 重新調(diào)整內(nèi)存的功耗效率,使每瓦帶寬比GDDR5高出3倍多,即功耗降低3倍多。 更小外形:GDDR作為獨(dú)立封裝,在PCB上圍繞在處理器的周圍,而HBM則排布在硅中階層(Silicon Interposer)上并和GPU封裝在一起,面積一下子縮小了很多,比如HBM2比GDDR5節(jié)省了94%的表面積。 HBM發(fā)展至今第四代性能不斷突破。自2014年首款硅通孔HBM產(chǎn)品問世至今,HBM技術(shù)已經(jīng)發(fā)展至第四代,分別是:HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代),HBM芯片容量從1GB升級(jí)至24GB,帶寬從128GB/s提升至819GB/s,數(shù)據(jù)傳輸速率也從1Gbps提高至6.4Gbps
AIGC浪潮下AI服務(wù)器采購量增長(zhǎng),催生HBM需求量今年增近六成。2023年爆款A(yù)IGC應(yīng)用帶動(dòng)AI服務(wù)器成長(zhǎng)熱潮,大型云端企業(yè)紛紛積極布局,包含Microsoft、Google、AWS、字節(jié)跳動(dòng)、百度等企業(yè)陸續(xù)采購高端AI服務(wù)器,以持續(xù)訓(xùn)練及優(yōu)化其AI分析模型。TrendForce預(yù)估今年AI服務(wù)器出貨量年增率可望達(dá)15.4%,2023~2027年AI服務(wù)器出貨量年復(fù)合成長(zhǎng)率約12.2%。 高端AI服務(wù)器需采用的高端AI芯片,相較于一般服務(wù)器而言,AI服務(wù)器多增加GPGPU的使用,以NVIDIA A100 80GB配置4或8張計(jì)算,HBM用量約為320~640GB。未來在AI模型逐漸復(fù)雜化的趨勢(shì)下,將推升2023-2024年高帶寬存儲(chǔ)器(HBM)的需求。 TrendForce預(yù)估2023年全球HBM需求量將年增近六成,來到2.9億GB,2024年將再成長(zhǎng)三成。根據(jù)Mordor Intelligence,2020年高帶寬內(nèi)存市場(chǎng)價(jià)值為 10.682 億美元,預(yù)計(jì)到2026年將達(dá)到40.885億美元,在2021-2026年預(yù)測(cè)期間的復(fù)合年增長(zhǎng)率為25.4%。在近期的業(yè)績(jī)會(huì)上,SK海力士表示目前其HBM的銷量占比還不足營收1%,但今年銷售額占比有望成長(zhǎng)到10%,同時(shí)預(yù)計(jì)在明年應(yīng)用于AI服務(wù)器的HBM和DDR5的銷量將翻一番。 HBM價(jià)值量顯著敢于標(biāo)準(zhǔn)DRAM,成為新利潤(rùn)增長(zhǎng)點(diǎn)。芯片咨詢公司 SemiAnalysis 表示,HBM的價(jià)格大約是標(biāo)準(zhǔn)DRAM芯片的五倍,為制造商帶來了更大的總利潤(rùn)。目前,HBM占全球內(nèi)存收入的比例不到5%,但SemiAnalysis預(yù)計(jì)到2026年將占到總收入的20%以上。
SK海力士首席財(cái)務(wù)官Kim Woo-hyun 在4月份的財(cái)報(bào)電話會(huì)議上表示預(yù)計(jì)2023年HBM收入將同比增長(zhǎng)50%以上。
5、CXL:PCIe應(yīng)對(duì)海量數(shù)據(jù)面臨瓶頸
PCI-Express簡(jiǎn)稱PCIE,是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),主要用于擴(kuò)充計(jì)算機(jī)系統(tǒng)總線數(shù)據(jù)吞吐量以及提高設(shè)備通信速度。PCIE本質(zhì)上是一種全雙工的的連接總線,傳輸數(shù)據(jù)量的大小由通道數(shù)lane決定的。 一般,1個(gè)連接通道lane稱為X1,每個(gè)通道lane由兩對(duì)數(shù)據(jù)線組成,一對(duì)發(fā)送,一對(duì)接收,每對(duì)數(shù)據(jù)線包含兩根差分線。即X1只有1個(gè)lane,4根數(shù)據(jù)線,每個(gè)時(shí)鐘每個(gè)方向1bit數(shù)據(jù)傳輸,依次類推。CPU通過主板上的PCIe插槽及PCIe協(xié)議與加速器溝通,實(shí)現(xiàn)上下之間的接口以協(xié)調(diào)數(shù)據(jù)的傳送,并在高時(shí)鐘頻率下保持高性能。
即使每代PCIe性能升級(jí),但面對(duì)海量數(shù)據(jù)仍有壓力。每一代PCIe的吞吐量都翻番,2019年5月底公布的PCIe 5.0,其以32Gb/s的單通道帶寬與32GT/s每通道數(shù)據(jù)傳輸速率,滿足了現(xiàn)今絕大多數(shù)的需求。但應(yīng)對(duì)數(shù)據(jù)TB級(jí)增長(zhǎng)、異構(gòu)計(jì)算大行其道的當(dāng)下,PCIe在內(nèi)存使用效率、延遲和數(shù)據(jù)吞吐量等方面,已經(jīng)面臨壓力。
6、CXL:PCIe技術(shù)乏力,CXL旨在解決內(nèi)存墻和IO墻問題
PCIe技術(shù)逐漸乏力,CXL旨在解決存儲(chǔ)墻和IO墻問題。現(xiàn)代處理器性能的不斷提升,而內(nèi)存與算力之間的技術(shù)發(fā)展差距卻不斷增大。在過去的20多年中,處理器的性能以每年大約55%速度快速提升,而內(nèi)存性能的提升速度則只有每年10%左右。面臨摩爾定律的壓力,當(dāng)代內(nèi)存容量擴(kuò)展速度逐年減緩,成本卻愈發(fā)高昂。隨著大數(shù)據(jù)AI、機(jī)器學(xué)習(xí)等應(yīng)用爆發(fā),英特爾二十年前開創(chuàng)的PCIe(PCI Express)技術(shù)逐漸乏力,內(nèi)存墻和IO墻成為兩個(gè)不可逾越的瓶頸,基于PCI-e協(xié)議的CXL技術(shù)便在此環(huán)境下出現(xiàn)。 存儲(chǔ)墻:現(xiàn)代計(jì)算系統(tǒng)通常采取高速緩存(SRAM)、主存(DRAM)、外部存儲(chǔ)(NAND Flash)的三級(jí)存儲(chǔ)結(jié)構(gòu)。每當(dāng)應(yīng)用開始工作時(shí),就需要不斷地在內(nèi)存中來回傳輸信息。SRAM響應(yīng)時(shí)間通常在納秒級(jí),DRAM則一般為100納秒量級(jí),NAND Flash更是高達(dá)100微秒級(jí),當(dāng)數(shù)據(jù)在這三級(jí)存儲(chǔ)間傳輸時(shí),后級(jí)的響應(yīng)時(shí)間及傳輸帶寬都將拖累整體的性能,形成“存儲(chǔ)墻”。
IO墻:以AI為例,AI模型的大小基本上每?jī)赡晟仙粋€(gè)數(shù)量級(jí),內(nèi)存中的數(shù)據(jù)可以較快訪問,但超出內(nèi)存后數(shù)據(jù)就需要放在外部存儲(chǔ)里,用網(wǎng)絡(luò)IO來訪問數(shù)據(jù)。IO方式的訪問會(huì)使得訪問速度嚴(yán)重下降,當(dāng)數(shù)據(jù)量過于龐大內(nèi)存容量不夠時(shí),IO也不可避免地會(huì)成為應(yīng)用的瓶頸。
7、CXL:具有極高兼容性和內(nèi)存一致性的全新互聯(lián)技術(shù)標(biāo)準(zhǔn)
CXL作為一種全新的互聯(lián)技術(shù)標(biāo)準(zhǔn),具有極高兼容性和內(nèi)存一致性。CXL全稱為Compute Express Link,2019年英特爾推出了CXL技術(shù),其能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效的互聯(lián),從而滿足高性能異構(gòu)計(jì)算的要求,并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。
CXL硬件加軟件的生態(tài)環(huán)境里,已經(jīng)涌現(xiàn)了一大批公司。CXL聯(lián)盟于2019年3月由創(chuàng)始成員阿里巴巴集團(tuán)、思科系統(tǒng)、戴爾易安信、Meta、谷歌、惠普企業(yè)(HPE)、華為、英特爾公司和微軟組成。此后,AMD、NVIDIA、三星、Arm、瑞薩、IBM、Keysight、Synopsys、Marvell等以各種身份加入。2021、2022年Gen-Z技術(shù)和OpenCAPI技術(shù)相繼加入,CXL聯(lián)盟一統(tǒng)I/O互連標(biāo)準(zhǔn)。
8、CXL:1.1/2.0/3.0三代標(biāo)準(zhǔn),從單機(jī)到多層交互
CXL是基于 PCIe 5.0發(fā)展而來,過去四年時(shí)間CXL已經(jīng)發(fā)表了1.0/1.1、2.0、3.0三個(gè)不同的版本。 CXL 1.1:2019年,CXL的第一個(gè)版本CXL 1.1問世了。它主要定義的標(biāo)準(zhǔn)是如何直接連接一臺(tái)服務(wù)器里計(jì)算器件和內(nèi)存器件,它主要的場(chǎng)景是對(duì)內(nèi)存的容量和帶寬進(jìn)行擴(kuò)展,即Memory Expansion。 CXL 2.0:下圖中H1到H4到Hn指不同Host,它可以通過CXL Switch連接多個(gè)設(shè)備, D1到D4到Dn指的是不同的內(nèi)存,也是通CXLSwitch連到上層的主機(jī)里。CXL 2.0不僅解決單機(jī)設(shè)備的問題,更是使Memory Pooling成為可能。這套框架下,可以跨系統(tǒng)設(shè)備實(shí)現(xiàn)共享內(nèi)存池,大大提高內(nèi)存的使用率,增加靈活性,同時(shí)降低內(nèi)存的使用成本。
CXL 3.0:2022年8月份發(fā)布的新標(biāo)準(zhǔn),在CXL 2.0基礎(chǔ)上增加了一些重要功能,它可以使得多個(gè)Switch互相連接,可以使得上百個(gè)服務(wù)器互聯(lián)并共享內(nèi)存。除了多層交互以外,CXL 3.0還多Memory sharing的能力,突破了某一個(gè)物理內(nèi)存只能屬于某一臺(tái)服務(wù)器的限制,在硬件上實(shí)現(xiàn)了多機(jī)共同訪問同樣內(nèi)存地址的能力。 技術(shù)路線圖明確,至少2023年H2才有CXL 1.0/1.1的產(chǎn)品落地。已經(jīng)有不少公司宣布將支持CXL,包括AMD、英特爾的下一代服務(wù)器芯片,內(nèi)存廠商三星、海力士、美光均宣布了支持CXL的內(nèi)存產(chǎn)品,但真正的產(chǎn)品仍需至少2023年H2才能推出。2024年上半年,CXL1.1和CXL 2.0的產(chǎn)品可能會(huì)有落地產(chǎn)品,CXL 3.0的落地還需要更長(zhǎng)時(shí)間。
責(zé)任編輯:彭菁
-
模塊
+關(guān)注
關(guān)注
7文章
2731瀏覽量
47713 -
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4353瀏覽量
86126 -
計(jì)算
+關(guān)注
關(guān)注
2文章
451瀏覽量
38861 -
人工智能
+關(guān)注
關(guān)注
1796文章
47643瀏覽量
240082 -
存算一體
+關(guān)注
關(guān)注
0文章
103瀏覽量
4319
原文標(biāo)題:計(jì)算架構(gòu)升級(jí),新興技術(shù)應(yīng)用而生
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論