曰批视频免费,亚洲精品午夜久久aaa级久久久,亚洲最新在线观看

處理器、內(nèi)存發(fā)展速度不均衡，“存儲(chǔ)墻”如今成為數(shù)據(jù)計(jì)算一大障礙。隨著近幾年云計(jì)算和人工智能應(yīng)用的發(fā)展，面對(duì)計(jì)算中心的數(shù)據(jù)洪流，數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問題成為了計(jì)算的關(guān)鍵瓶頸。在過去二十年，處理器性能速度提升遠(yuǎn)超內(nèi)存性能提升，長(zhǎng)期下來，不均衡的發(fā)展速度造成了當(dāng)前的存儲(chǔ)速度嚴(yán)重滯后于處理器的計(jì)算速度。

在傳統(tǒng)計(jì)算機(jī)的設(shè)定里，存儲(chǔ)模塊是為計(jì)算服務(wù)的，因此設(shè)計(jì)上會(huì)考慮存儲(chǔ)與計(jì)算的分離與優(yōu)先級(jí)。從處理單元外的存儲(chǔ)器提取數(shù)據(jù)，搬運(yùn)時(shí)間往往是運(yùn)算時(shí)間的成百上千倍，整個(gè)過程的無用能耗大概在60%-90%之間，能效非常低，“存儲(chǔ)墻”成為了數(shù)據(jù)計(jì)算應(yīng)用的一大障礙。

1、消除馮諾依曼計(jì)算架構(gòu)瓶頸，存算一體應(yīng)運(yùn)而生

人工智能應(yīng)用興起，“存儲(chǔ)墻”下存算一體技術(shù)應(yīng)運(yùn)而生。應(yīng)用發(fā)展至今，人工智能的出現(xiàn)驅(qū)動(dòng)了計(jì)算型存儲(chǔ)/存算一體/存內(nèi)計(jì)算的發(fā)展。人工智能算法的訪存密集（大數(shù)據(jù)需求）和計(jì)算密集（低精度規(guī)整運(yùn)算）的特征和為計(jì)算型存儲(chǔ)/存算一體/存內(nèi)計(jì)算的實(shí)現(xiàn)提供了有力的條件。如今，存儲(chǔ)和計(jì)算不得不整體考慮，以最佳的配合方式為數(shù)據(jù)采集、傳輸和處理服務(wù)。

存算一體（Computing in Memory）是在存儲(chǔ)器中嵌入計(jì)算能力，以新的運(yùn)算架構(gòu)進(jìn)行二維和三維矩陣乘法/加法運(yùn)算。存算一體技術(shù)直接利用存儲(chǔ)器進(jìn)行數(shù)據(jù)處理或計(jì)算，從而把數(shù)據(jù)存儲(chǔ)與計(jì)算融合在同一個(gè)芯片的同一片區(qū)之中，可以徹底消除馮諾依曼計(jì)算架構(gòu)瓶頸。存算一體的優(yōu)勢(shì)是打破存儲(chǔ)墻，消除不必要的數(shù)據(jù)搬移延遲和功耗，并使用存儲(chǔ)單元提升算力，成百上千倍的提高計(jì)算效率，降低成本。存算一體有近內(nèi)存計(jì)算（NMC）、存儲(chǔ)級(jí)內(nèi)存（SCM）、近存儲(chǔ)計(jì)算（NSC）及存內(nèi)計(jì)算（IMC）等技術(shù)方向。近內(nèi)存計(jì)算（NMC）：“捆綁”緩存+內(nèi)存，通常會(huì)選用3D封裝，利用TSV（硅通孔技術(shù)）實(shí)現(xiàn)垂直通信，但成本高，不同型號(hào)的芯片帶還要匹配大小，進(jìn)行預(yù)設(shè)計(jì)和流片。在以上工作的基礎(chǔ)之上，還要考慮通用性問題，它適用于AI，機(jī)器學(xué)習(xí)和數(shù)據(jù)中心等規(guī)模型應(yīng)用需求。另一種是2.5D封裝，主流技術(shù)是HBM（高帶寬內(nèi)存），與平面板級(jí)連線不同，加入了interposer這種特殊有機(jī)材料（線寬，節(jié)點(diǎn)間距優(yōu)于電路板）作為中間轉(zhuǎn)接層，它像一個(gè)有底座的硅芯片，CPU周邊增加很多“凹槽”，連接多個(gè)HBM（DRAM芯片）堆棧實(shí)現(xiàn)高密度和高帶寬。

存儲(chǔ)級(jí)內(nèi)存（SCM）：常見的是由英特爾和美光推出的3D Xpoint，基于相變存儲(chǔ)技術(shù)，速度介于SSD和內(nèi)存之間，目前可以和DRAM配合使用，適用于規(guī)模型應(yīng)用場(chǎng)景。近存儲(chǔ)計(jì)算（NSC）：將SSD控制器加上計(jì)算功能，或者讓擁有計(jì)算模塊的FPGA來處理數(shù)據(jù)并且充當(dāng)閃存控制器，不通過CPU進(jìn)行讀取計(jì)算，而是直連存儲(chǔ)器和計(jì)算，以此提升計(jì)算效率。

存內(nèi)計(jì)算（IMC）：利用存儲(chǔ)器的單元模擬特性做計(jì)算。CPU是二進(jìn)制邏輯計(jì)算，而存內(nèi)計(jì)算則是利用存儲(chǔ)器內(nèi)電阻特性進(jìn)行計(jì)算，不只是用來區(qū)分電阻高低，而是通過電阻值來區(qū)分多種狀態(tài)，僅僅用一個(gè)晶體管就可以完成一次乘法計(jì)算過程。

2、成熟存儲(chǔ)介質(zhì)、新型存儲(chǔ)介質(zhì)齊發(fā)展

存算一體有Flash、SRAM、DRAM等成熟存儲(chǔ)介質(zhì)，同時(shí)ReRAM、MRAM等新型存儲(chǔ)介質(zhì)也在快速發(fā)展。根據(jù)存儲(chǔ)介質(zhì)的不同，存內(nèi)計(jì)算芯片可分為基于傳統(tǒng)存儲(chǔ)器和基于新型非易失性存儲(chǔ)器兩種。

傳統(tǒng)存儲(chǔ)器包括SRAM，DRAM和Flash等；新型非易失性存儲(chǔ)器包括ReRAM，PCM，F(xiàn)eFET，MRAM等。其中，距離產(chǎn)業(yè)化較近的是基于NOR Flash和基于SRAM的存內(nèi)計(jì)算芯片。

3、HBM：HBM技術(shù)下，DRAM由2D轉(zhuǎn)為3D

HBM（High Bandwidth Memory）即高帶寬存儲(chǔ)器，按照J(rèn)EDEC的分類，HBM屬于GDDR內(nèi)存的一種，其通過使用先進(jìn)的封裝方法（如TSV硅通孔技術(shù)）垂直堆疊多個(gè)DRAM，并與GPU封裝在一起。業(yè)界希望通過增加存儲(chǔ)器帶寬解決大數(shù)據(jù)時(shí)代下的“內(nèi)存墻”問題，HBM便應(yīng)運(yùn)而生。存儲(chǔ)器帶寬是指單位時(shí)間內(nèi)可以傳輸?shù)臄?shù)據(jù)量，要想增加帶寬，最簡(jiǎn)單的方法是增加數(shù)據(jù)傳輸線路的數(shù)量。

據(jù)悉，典型的DRAM芯片中，每個(gè)芯片有八個(gè)DQ數(shù)據(jù)輸入/輸出引腳，組成DIMM模組單元之后，共有64個(gè)DQ引腳。而HBM通過系統(tǒng)級(jí)封裝（SIP）和硅通孔（TSV）技術(shù)，擁有多達(dá)1024個(gè)數(shù)據(jù)引腳，可顯著提升數(shù)據(jù)傳輸速度。HBM技術(shù)之下，DRAM芯片從2D轉(zhuǎn)變?yōu)?D，可以在很小的物理空間里實(shí)現(xiàn)高容量、高帶寬、低延時(shí)與低功耗，因而HBM被業(yè)界視為新一代內(nèi)存解決方案。

4、HBM：較傳統(tǒng)GDDR帶寬、功耗等性能優(yōu)勢(shì)明顯

更高速、更高帶寬：最新的HBM3的帶寬最高可以達(dá)到819 GB/s，而最新的GDDR6的帶寬最高只有96GB/s，CPU和硬件處理單元的常用外掛存儲(chǔ)設(shè)備DDR4的帶寬更是只有HBM的1/10。更高位寬：采用3D堆疊技術(shù)之后，其下方互聯(lián)的觸點(diǎn)數(shù)量遠(yuǎn)遠(yuǎn)多于DDR內(nèi)存連接到CPU的線路數(shù)量。從傳輸位寬的角度來看，4層DRAM裸片高度的HBM內(nèi)存總共就是1024 bit位寬。很多GPU、CPU周圍都有4片這樣的HBM內(nèi)存，則總共位寬就是4096bit。

更低功耗：HBM 重新調(diào)整內(nèi)存的功耗效率，使每瓦帶寬比GDDR5高出3倍多，即功耗降低3倍多。更小外形：GDDR作為獨(dú)立封裝，在PCB上圍繞在處理器的周圍，而HBM則排布在硅中階層(Silicon Interposer)上并和GPU封裝在一起，面積一下子縮小了很多，比如HBM2比GDDR5節(jié)省了94%的表面積。 HBM發(fā)展至今第四代性能不斷突破。自2014年首款硅通孔HBM產(chǎn)品問世至今，HBM技術(shù)已經(jīng)發(fā)展至第四代，分別是：HBM（第一代）、HBM2（第二代）、HBM2E（第三代）、HBM3（第四代），HBM芯片容量從1GB升級(jí)至24GB，帶寬從128GB/s提升至819GB/s，數(shù)據(jù)傳輸速率也從1Gbps提高至6.4Gbps

AIGC浪潮下AI服務(wù)器采購量增長(zhǎng)，催生HBM需求量今年增近六成。2023年爆款A(yù)IGC應(yīng)用帶動(dòng)AI服務(wù)器成長(zhǎng)熱潮，大型云端企業(yè)紛紛積極布局，包含Microsoft、Google、AWS、字節(jié)跳動(dòng)、百度等企業(yè)陸續(xù)采購高端AI服務(wù)器，以持續(xù)訓(xùn)練及優(yōu)化其AI分析模型。TrendForce預(yù)估今年AI服務(wù)器出貨量年增率可望達(dá)15.4%，2023~2027年AI服務(wù)器出貨量年復(fù)合成長(zhǎng)率約12.2%。高端AI服務(wù)器需采用的高端AI芯片，相較于一般服務(wù)器而言，AI服務(wù)器多增加GPGPU的使用，以NVIDIA A100 80GB配置4或8張計(jì)算，HBM用量約為320~640GB。未來在AI模型逐漸復(fù)雜化的趨勢(shì)下，將推升2023-2024年高帶寬存儲(chǔ)器（HBM）的需求。 TrendForce預(yù)估2023年全球HBM需求量將年增近六成，來到2.9億GB，2024年將再成長(zhǎng)三成。根據(jù)Mordor Intelligence，2020年高帶寬內(nèi)存市場(chǎng)價(jià)值為 10.682 億美元，預(yù)計(jì)到2026年將達(dá)到40.885億美元，在2021-2026年預(yù)測(cè)期間的復(fù)合年增長(zhǎng)率為25.4%。在近期的業(yè)績(jī)會(huì)上，SK海力士表示目前其HBM的銷量占比還不足營收1%，但今年銷售額占比有望成長(zhǎng)到10%，同時(shí)預(yù)計(jì)在明年應(yīng)用于AI服務(wù)器的HBM和DDR5的銷量將翻一番。 HBM價(jià)值量顯著敢于標(biāo)準(zhǔn)DRAM，成為新利潤(rùn)增長(zhǎng)點(diǎn)。芯片咨詢公司 SemiAnalysis 表示，HBM的價(jià)格大約是標(biāo)準(zhǔn)DRAM芯片的五倍，為制造商帶來了更大的總利潤(rùn)。目前，HBM占全球內(nèi)存收入的比例不到5%，但SemiAnalysis預(yù)計(jì)到2026年將占到總收入的20%以上。

SK海力士首席財(cái)務(wù)官Kim Woo-hyun 在4月份的財(cái)報(bào)電話會(huì)議上表示預(yù)計(jì)2023年HBM收入將同比增長(zhǎng)50%以上。

5、CXL：PCIe應(yīng)對(duì)海量數(shù)據(jù)面臨瓶頸

PCI-Express簡(jiǎn)稱PCIE，是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn)，主要用于擴(kuò)充計(jì)算機(jī)系統(tǒng)總線數(shù)據(jù)吞吐量以及提高設(shè)備通信速度。PCIE本質(zhì)上是一種全雙工的的連接總線，傳輸數(shù)據(jù)量的大小由通道數(shù)lane決定的。一般，1個(gè)連接通道lane稱為X1，每個(gè)通道lane由兩對(duì)數(shù)據(jù)線組成，一對(duì)發(fā)送，一對(duì)接收，每對(duì)數(shù)據(jù)線包含兩根差分線。即X1只有1個(gè)lane，4根數(shù)據(jù)線，每個(gè)時(shí)鐘每個(gè)方向1bit數(shù)據(jù)傳輸，依次類推。CPU通過主板上的PCIe插槽及PCIe協(xié)議與加速器溝通，實(shí)現(xiàn)上下之間的接口以協(xié)調(diào)數(shù)據(jù)的傳送，并在高時(shí)鐘頻率下保持高性能。

即使每代PCIe性能升級(jí)，但面對(duì)海量數(shù)據(jù)仍有壓力。每一代PCIe的吞吐量都翻番，2019年5月底公布的PCIe 5.0，其以32Gb/s的單通道帶寬與32GT/s每通道數(shù)據(jù)傳輸速率，滿足了現(xiàn)今絕大多數(shù)的需求。但應(yīng)對(duì)數(shù)據(jù)TB級(jí)增長(zhǎng)、異構(gòu)計(jì)算大行其道的當(dāng)下，PCIe在內(nèi)存使用效率、延遲和數(shù)據(jù)吞吐量等方面，已經(jīng)面臨壓力。

6、CXL：PCIe技術(shù)乏力，CXL旨在解決內(nèi)存墻和IO墻問題

PCIe技術(shù)逐漸乏力，CXL旨在解決存儲(chǔ)墻和IO墻問題。現(xiàn)代處理器性能的不斷提升，而內(nèi)存與算力之間的技術(shù)發(fā)展差距卻不斷增大。在過去的20多年中，處理器的性能以每年大約55%速度快速提升，而內(nèi)存性能的提升速度則只有每年10%左右。面臨摩爾定律的壓力，當(dāng)代內(nèi)存容量擴(kuò)展速度逐年減緩，成本卻愈發(fā)高昂。隨著大數(shù)據(jù)AI、機(jī)器學(xué)習(xí)等應(yīng)用爆發(fā)，英特爾二十年前開創(chuàng)的PCIe（PCI Express）技術(shù)逐漸乏力，內(nèi)存墻和IO墻成為兩個(gè)不可逾越的瓶頸，基于PCI-e協(xié)議的CXL技術(shù)便在此環(huán)境下出現(xiàn)。存儲(chǔ)墻：現(xiàn)代計(jì)算系統(tǒng)通常采取高速緩存(SRAM)、主存(DRAM)、外部存儲(chǔ)(NAND Flash)的三級(jí)存儲(chǔ)結(jié)構(gòu)。每當(dāng)應(yīng)用開始工作時(shí)，就需要不斷地在內(nèi)存中來回傳輸信息。SRAM響應(yīng)時(shí)間通常在納秒級(jí)，DRAM則一般為100納秒量級(jí)，NAND Flash更是高達(dá)100微秒級(jí)，當(dāng)數(shù)據(jù)在這三級(jí)存儲(chǔ)間傳輸時(shí)，后級(jí)的響應(yīng)時(shí)間及傳輸帶寬都將拖累整體的性能，形成“存儲(chǔ)墻”。

IO墻：以AI為例，AI模型的大小基本上每?jī)赡晟仙粋€(gè)數(shù)量級(jí)，內(nèi)存中的數(shù)據(jù)可以較快訪問，但超出內(nèi)存后數(shù)據(jù)就需要放在外部存儲(chǔ)里，用網(wǎng)絡(luò)IO來訪問數(shù)據(jù)。IO方式的訪問會(huì)使得訪問速度嚴(yán)重下降，當(dāng)數(shù)據(jù)量過于龐大內(nèi)存容量不夠時(shí)，IO也不可避免地會(huì)成為應(yīng)用的瓶頸。

7、CXL：具有極高兼容性和內(nèi)存一致性的全新互聯(lián)技術(shù)標(biāo)準(zhǔn)

CXL作為一種全新的互聯(lián)技術(shù)標(biāo)準(zhǔn)，具有極高兼容性和內(nèi)存一致性。CXL全稱為Compute Express Link，2019年英特爾推出了CXL技術(shù)，其能夠讓CPU與GPU、FPGA或其他加速器之間實(shí)現(xiàn)高速高效的互聯(lián)，從而滿足高性能異構(gòu)計(jì)算的要求，并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。

CXL硬件加軟件的生態(tài)環(huán)境里，已經(jīng)涌現(xiàn)了一大批公司。CXL聯(lián)盟于2019年3月由創(chuàng)始成員阿里巴巴集團(tuán)、思科系統(tǒng)、戴爾易安信、Meta、谷歌、惠普企業(yè)(HPE)、華為、英特爾公司和微軟組成。此后，AMD、NVIDIA、三星、Arm、瑞薩、IBM、Keysight、Synopsys、Marvell等以各種身份加入。2021、2022年Gen-Z技術(shù)和OpenCAPI技術(shù)相繼加入，CXL聯(lián)盟一統(tǒng)I/O互連標(biāo)準(zhǔn)。

8、CXL：1.1/2.0/3.0三代標(biāo)準(zhǔn)，從單機(jī)到多層交互

CXL是基于 PCIe 5.0發(fā)展而來，過去四年時(shí)間CXL已經(jīng)發(fā)表了1.0/1.1、2.0、3.0三個(gè)不同的版本。 CXL 1.1：2019年，CXL的第一個(gè)版本CXL 1.1問世了。它主要定義的標(biāo)準(zhǔn)是如何直接連接一臺(tái)服務(wù)器里計(jì)算器件和內(nèi)存器件，它主要的場(chǎng)景是對(duì)內(nèi)存的容量和帶寬進(jìn)行擴(kuò)展，即Memory Expansion。 CXL 2.0：下圖中H1到H4到Hn指不同Host，它可以通過CXL Switch連接多個(gè)設(shè)備， D1到D4到Dn指的是不同的內(nèi)存，也是通CXLSwitch連到上層的主機(jī)里。CXL 2.0不僅解決單機(jī)設(shè)備的問題，更是使Memory Pooling成為可能。這套框架下，可以跨系統(tǒng)設(shè)備實(shí)現(xiàn)共享內(nèi)存池，大大提高內(nèi)存的使用率，增加靈活性，同時(shí)降低內(nèi)存的使用成本。

CXL 3.0：2022年8月份發(fā)布的新標(biāo)準(zhǔn)，在CXL 2.0基礎(chǔ)上增加了一些重要功能，它可以使得多個(gè)Switch互相連接，可以使得上百個(gè)服務(wù)器互聯(lián)并共享內(nèi)存。除了多層交互以外，CXL 3.0還多Memory sharing的能力，突破了某一個(gè)物理內(nèi)存只能屬于某一臺(tái)服務(wù)器的限制，在硬件上實(shí)現(xiàn)了多機(jī)共同訪問同樣內(nèi)存地址的能力。技術(shù)路線圖明確，至少2023年H2才有CXL 1.0/1.1的產(chǎn)品落地。已經(jīng)有不少公司宣布將支持CXL，包括AMD、英特爾的下一代服務(wù)器芯片，內(nèi)存廠商三星、海力士、美光均宣布了支持CXL的內(nèi)存產(chǎn)品，但真正的產(chǎn)品仍需至少2023年H2才能推出。2024年上半年，CXL1.1和CXL 2.0的產(chǎn)品可能會(huì)有落地產(chǎn)品，CXL 3.0的落地還需要更長(zhǎng)時(shí)間。

責(zé)任編輯：彭菁

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴