以“智聯(lián)世界 生成未來”為主題的2023世界人工智能大會,即將在本周(7月6日)拉開帷幕。從今年的大會主題不難看出,生成式人工智能(AIGC),正是當下人工智能學術界、產(chǎn)業(yè)界的最大熱點,可以想見,大會期間,各家廠商的自研大模型將上演一場名副其實的“百模大戰(zhàn)”。
回顧AIGC走紅的過程,2018年谷歌發(fā)布Transformer模型無疑是一個關鍵里程碑。由于舍棄了NLP領域自回歸計算范式的LSTM/GRU傳統(tǒng)算法,從CV領域借用已較為成熟的注意力機制,以位置信息取代時序信息,Transformer得以充分利用GPU等SIMD架構處理器硬件的并行處理能力,實現(xiàn)了令人驚艷的工程效果,并使大型語言模型(LLM)成為其后迅速走向主流的研究路徑,工程實踐與能力涌現(xiàn)的良性循環(huán),最終為ChatGPT、Midjourney等產(chǎn)品的現(xiàn)象級傳播奠定了基礎。
當下這場無人甘于錯失的AI淘金熱中,大算力AI芯片,順理成章成為衡量各家AIGC業(yè)務能力的最重要標尺之一,得到了空前關注。不過在公眾輿論場中,這一極具解析價值的議題似乎被簡單粗暴地等同于“囤積了多少塊英偉達A100/H100”。有鑒于此,集微網(wǎng)特意對國內外開發(fā)大算力AI芯片的科技公司概況進行了整理,以期為讀者提供一幅AI“大芯片”全景圖譜。
通用還是定制,AI芯片體系結構“天問”
1991年,當黃仁勛還未創(chuàng)立英偉達之時,深度學習“三巨頭”之一的楊立昆(Yann LeCun),就已經(jīng)在貝爾實驗室開發(fā)了卷積神經(jīng)網(wǎng)絡專用訓練芯片ANNA,初步驗證了為AI訓練、推理任務開發(fā)的領域專用架構在算力、能效上的優(yōu)越性。
2015年前后,在AlexNet、AlphaGO的震撼下,大批企業(yè)涌入AI芯片市場,掀起了這一細分賽道的第一波創(chuàng)投熱潮。作為AI芯片中最為高端的品類之一,面向數(shù)據(jù)中心市場的AI大算力芯片也吸引了眾多新老玩家。集微網(wǎng)所梳理的主要廠商,彼時普遍押注于兩大技術路線,即英偉達為代表的GPGPU路線,和谷歌TPU為代表的定制ASIC路線。
數(shù)年后的今天,英偉達GPGPU無疑依然占據(jù)著市場主導地位。
根據(jù)集微咨詢(JW Insights)統(tǒng)計,AI類芯片在2022年352億美元的市場規(guī)模中,GPGPU占比接近60%,TrendForce則預測,2023年AI服務器(包含搭載GPU、FPGA、ASIC定制芯片)出貨量近120萬臺,其中英偉達GPU市占率約60-70%,云計算巨頭自研AI芯片占比約20%。
在英偉達高端產(chǎn)品一卡難求的同時,不少曾經(jīng)的AI芯片獨角獸則已悄然退場,連續(xù)收購Habana、Nervana、Movidius等AI芯片明星創(chuàng)企的英特爾,近期也傳出加速計算產(chǎn)品線被大幅削減的消息。
定制大算力AI芯片的“骨感”現(xiàn)實,一方面源于AI模型、算法、用例本身極為快速的迭代,使針對特定模型的硬件優(yōu)化往往面臨問世即過時的可能,通用芯片與軟件優(yōu)化的組合有其內在合理性,并且谷歌及一眾初創(chuàng)企業(yè)實踐的ASIC路線依靠乘加器脈動陣列來訓練神經(jīng)網(wǎng)絡,往往面臨流水線頭尾開銷大,計算資源利用率不足的問題。
更重要的是,對需求端的AI開發(fā)者而言,英偉達不僅意味著一個加速卡硬件品牌,更是完整AI開發(fā)平臺的代名詞。從楊立昆、辛頓(Geoffrey Hinton)等人的開創(chuàng)性工作開始,英偉達CUDA并行計算框架,已經(jīng)成為事實上的AI學術界、工業(yè)界通用標準,在AI開發(fā)者社區(qū)形成了明顯的網(wǎng)絡效應,恰如英特爾在CPU領域的統(tǒng)治力來源于IBM PC機所培育的終端用戶生態(tài)。
當然,ASIC路線暴露出的不足,也刺激了進一步的技術、架構探索,自FPGA起源的可重構計算,近年來又向由數(shù)據(jù)流驅動的空間計算(Spatial computing)演進,涌現(xiàn)出Tenstorrent、特斯拉、Cerebras等新秀。
AIGC空前熱潮下,英偉達之外的新老玩家在大算力AI芯片領域技術與產(chǎn)品布局正在加速。
以全球三大云計算廠商為例,亞馬遜近期主動對外表態(tài),對AMD為數(shù)據(jù)中心AI負載開發(fā)的新一代MI300 APU表示了明確興趣;全球第二大廠微軟,也在近期被曝出代號Athena的自研AI芯片項目,據(jù)稱已有部分樣品供微軟和OpenAI員工試用,第三朵“大云”谷歌,剛剛公開了TPUv4號稱“登月工程”的Pods架構設計。定制大算力AI芯片,緣何“風云再起”?
舊瓶新酒,定制AI芯片擁抱Chiplet
要理解供給端的技術與產(chǎn)品潮流變化,首先應當在需求端尋找線索。生成式人工智能的基本特征之一,無疑是對計算、存儲、IO帶寬能力堪稱永無止境的需求。
為了命中市場需求新的“甜蜜點”,各大廠商也展開了堪稱八仙過海的多元探索,而這樣的探索,顯然不會是上一輪AI芯片競爭的簡單重復。
在英偉達、谷歌等廠商致力于挖掘集群PodRack層面系統(tǒng)工程潛力的同時,更多AI芯片開發(fā)者在性能“軍備競賽”中,將目光投向了Chiplet(芯粒)工程方法,將之作為構建大規(guī)模、可擴展、高能效異構算力集群的基石,為了滿足AI云端訓練、推理任務對計算性能和內存帶寬的需求,CPU/GPU/FPGA/ASIC通過Chiplet實現(xiàn)異構集成的實踐已不斷涌現(xiàn)。
如老牌巨頭AMD推出的MI300系列APU,集成晶體管數(shù)量近1500億顆,通過三種Chiplet芯粒(Base layer、GPU GCDS、CPU CCDs)與不同規(guī)格HBM靈活搭配,可以形成豐富的產(chǎn)品組合,覆蓋客戶差異化需求,研發(fā)成本和量產(chǎn)成本都極具優(yōu)勢。
再如近期被諸多巨頭追捧的AI大芯片初創(chuàng)企業(yè)Tenstorrent,就明確以Chiplet作為產(chǎn)品迭代方向,并已經(jīng)與LG電子達成具體產(chǎn)品合作意向。
大體而言,業(yè)界當前對Chiplet的技術與商業(yè)價值已形成廣泛共識。
在計算性能上,芯粒的立體堆疊能夠突破光刻掩膜尺寸極限,大幅提高集成晶體管密度并降低數(shù)據(jù)傳輸資源開銷,不同體系結構的計算核可靈活組合,形成高內聚、低耦合、可配置、可伸縮的“超級芯片”,適應各類AIGC算法優(yōu)化需求,實現(xiàn)從System on Chip到System of Chips的轉變,在算力集群的系統(tǒng)層面繼續(xù)推進摩爾定律。而在商業(yè)上,Chiplet更有望大幅減少開發(fā)量產(chǎn)成本及周期,進一步降低AI算力硬件開發(fā)、制造門檻。
此外,如果說海外用戶還可以坐觀各家差異化方案成敗,那么在中國這一全球最二大AI支出市場,大算力AI芯片“另辟蹊徑”,更可以說是“Must be”的緊迫要求。未來海外高端GPU/APU即便還可繼續(xù)“特供”,在互連帶寬等關鍵參數(shù)限制下,也將實質性失去處理更大規(guī)模模型的能力。
從產(chǎn)業(yè)視角看,Die-to-Die(D2D)互連,則堪稱Chiplet走向商業(yè)應用的最關鍵環(huán)節(jié),同樣已成為Chiplet產(chǎn)業(yè)鏈創(chuàng)新創(chuàng)業(yè)的熱點。
Tenstorrent公司CEO、芯片設計大師Jim Keller就曾談到,當前Chiplet加速成熟,一個重要因素就是封裝技術已能夠提供較為理想的D2D信號鏈路,滿足芯粒互連的帶寬、功耗需求。
在這一產(chǎn)業(yè)環(huán)節(jié),除了傳統(tǒng)互連IP供應商延申拓展其布局,目前國內外也已涌現(xiàn)出Blue Cheetah、奇異摩爾(Kiwimoore)、Eliyan等新銳廠商,并呈現(xiàn)出十分旺盛的創(chuàng)新活力。
國內代表性廠商奇異摩爾成立于2021年初,是全球首批基于 Chiplet 架構,提供“通用互聯(lián)芯粒產(chǎn)品及系統(tǒng)級解決方案”的公司。核心產(chǎn)品涵蓋高速互聯(lián)IO Die、高性能互聯(lián)底座Base Die兩類芯粒,以及一系列 Die2Die IP 和 Chiplet 軟件設計平臺等全鏈路軟硬件產(chǎn)品。公司面向由 AIGC 驅動的數(shù)據(jù)中心、自動駕駛、個人計算平臺等高性能計算市場,通過提供以互聯(lián)芯粒為核心的 chiplet 系統(tǒng)級解決方案,助力客戶更快、更容易的做出復雜高算力芯片。
Blue Cheetah,則是海外目前風頭最盛的D2D互連技術供應商之一,在BOW和UCIe聯(lián)盟均十分活躍,其BlueLynx D2D互連IP已經(jīng)在多代工藝節(jié)點完成硅驗證,并已經(jīng)被DreamBig、Apex等企業(yè)應用于其數(shù)據(jù)中心網(wǎng)絡芯片產(chǎn)品。
某種意義上看,這些企業(yè)在新賽道上的競爭,也將會決定其所在區(qū)域Chiplet產(chǎn)業(yè)生態(tài)的發(fā)展水平。
Chiplet,大規(guī)模異構算力集群基石
新一代人工智能技術中,無論是NLP領域的大模型(LLMDM),還是搜廣推領域興起的DLRM模型,各種更新?lián)Q代的AI工作負載已經(jīng)明顯超出單卡存、算極限,因此在單個芯片規(guī)格不斷進步的同時,也勢必需要由大量異構計算核心組合成算力集群進行處理,以高效完成AI模型訓練、推理、迭代等各類生產(chǎn)流程。
AIGC對硬件算力越來越高的要求,使用戶日益關注作為一個整體的計算集群能效、費效表現(xiàn),由大量異構計算核心組成的算力集群,無疑已成為AIGC產(chǎn)業(yè)的重要競爭維度。
正如上文所述,AIGC模型參數(shù)、數(shù)據(jù)集的超大規(guī)模,使得批處理過程中數(shù)據(jù)吞吐量極高,為了提升訪存帶寬,片內封裝HBM幾乎成為所有AI大算力芯片的必選項,而Tenstorrent等新銳企業(yè)的空間計算范式創(chuàng)新,同樣內嵌著異構眾核的先進封裝需求,正因如此,Chiplet已被廣泛視為構建大規(guī)模、可擴展、高能效異構算力集群的基石。
有鑒于此,集微網(wǎng)也聯(lián)系到奇異摩爾這一本土Chiplet產(chǎn)業(yè)代表廠商,邀請其分享了來自行業(yè)前沿的觀察。
奇異摩爾聯(lián)合創(chuàng)始人兼產(chǎn)品及解決方案副總裁祝俊東表示,當前超大規(guī)模計算集群的發(fā)展有著三大驅動因素:
第一,從單芯片本身的維度來看,對其性能依然有非常高的要求,各家廠商無不在繼續(xù)致力于提升單片性能規(guī)格,不過傳統(tǒng)的SoC方式已經(jīng)逼近極限,怎樣做一顆更大的芯片就成為挑戰(zhàn);
第二,從AI角度著眼,不同類型的AI應用其實對于算子/算力的要求千差萬別,既要兼顧在不同情況下的通用性,也要滿足適度的專用性,例如對于Transformer的優(yōu)化;
第三,數(shù)據(jù)驅動的生成式人工智能,在運用中涉及大量預處理/前處理工作,已不適合純用GPU處理,需要用到異構計算架構去處理。
算力集群的持續(xù)擴展和異構集成,也帶來多重技術挑戰(zhàn),互連是其中尤為關鍵的瓶頸,在祝俊東看來,超大規(guī)模異構如果在板卡級或者集群級實現(xiàn),互連帶寬勢必會成為瓶頸,尤其是東西向帶寬隨著節(jié)點規(guī)模擴大,在總帶寬難以提升的情況下,更成為瓶頸,這也是業(yè)界推崇在芯片級異構Chiplet的原因所在,片內異構集成在帶寬、延時、功耗上能夠帶來更為優(yōu)越的表現(xiàn)。
算力投資熱潮下,Chiplet產(chǎn)業(yè)也已經(jīng)步入加速普及階段,根據(jù)研究機構Yole預測,狹義口徑的Chiplet(2.5D/3D封裝芯片)產(chǎn)品,正在迎來出貨量與市場規(guī)模的躍遷,2023、2024、2024年產(chǎn)品產(chǎn)值預計將分別達到70億、480億、990億美元。
如此驚人的跳躍式增長,既受益于需求端AI/HPC大芯片等熱門應用的“拉力”,也有供應端先進制程技術演進帶來的“壓力”。
半導體行業(yè)權威性的IRDS 2022版光刻技術路線圖中就明確警告,如果高NA EUV在2025年成功實用化,將導致當前的EUV***最大單次曝光面積進一步縮小一半,掩模尺寸必須更小,因此當高NA設備被引入時,monolithic芯片的“解耦”(disaggregation)幾乎不可避免,Chiplet勢必將從可選項向必選項轉變。
綜上所述,Chiplet在數(shù)據(jù)中心市場的加速滲透普及已經(jīng)是一個不可逆扭轉的趨勢,各個巨頭的中高端產(chǎn)品里已經(jīng)普遍使用Chiplet工程方法。
跨越鴻溝,Chiplet產(chǎn)業(yè)生態(tài)嬗變
如同二十年前的SoC技術,“小荷才露尖尖角”的Chiplet,產(chǎn)業(yè)鏈仍然處于發(fā)育的早期階段,目前在高端處理器領域的代表性產(chǎn)品,依然多為芯片與系統(tǒng)大廠內部自研。對于當下想要試水Chiplet的其他芯片開發(fā)團隊,依然面臨著多方面的技術與商業(yè)挑戰(zhàn):
第一,在前端設計上原有SoC/ASIC方法學及EDA工具鏈面臨重構,以適應基于D2D互連的Chiplet架構;
第二,Chiplet產(chǎn)品總體性能并不簡單等同于芯粒的堆疊規(guī)模,需要一套有效的D2D互聯(lián)架構及算法以實現(xiàn)高帶寬、低延時、低功耗,解決物理分離LLC的NUMA(非統(tǒng)一內存訪問),更進一步看,D2D互聯(lián)還需要形成行業(yè)標準,以實現(xiàn)不同廠商芯粒的互連互通;
第三,異構乃至異質芯粒封裝引入新的約束,后端設計面臨熱、力、電磁仿真及可測試性的全新挑戰(zhàn);
第四,目前能夠提供可靠良率的成熟Chiplet工藝方案依然有限,臺積電CoWoS/InFO近乎居于壟斷地位,其他擁有先進封裝工藝能力的廠商,往往在PDK工藝庫與EDA設計工具的結合上依然滯后,導致Chiplet芯片設計與制造能力無法有效對接。
對此,祝俊東也向集微網(wǎng)感言,傳統(tǒng)芯片公司對于封裝環(huán)節(jié)工藝細節(jié)普遍缺乏掌握,封裝廠則需要客戶提供其對先進封裝工藝的需求,同樣不了解相關技術如何在產(chǎn)品中發(fā)揮作用,因此產(chǎn)業(yè)環(huán)節(jié)對接還有很大的鴻溝,確實是一個有待解決的挑戰(zhàn)。
基于上述原因,對國內外大部分公司而言,想要盡早布局新興賽道,就必須借助于第三方廠商的服務,而與SoC產(chǎn)業(yè)鏈上的IP/設計服務廠商相比,Chiplet服務商覆蓋的產(chǎn)業(yè)鏈條不但更長,其在整合產(chǎn)業(yè)生態(tài)上的作用也更為關鍵。
以在北美市場極為活躍的Palo Alto Electron為例,該公司可為客戶完成基板和系統(tǒng)設計、CHIPLET設計與驗證、原型和PDK開發(fā),結合生態(tài)合作伙伴的芯粒庫和代工服務,形成了工程服務的“閉環(huán)”。
國內企業(yè)中,奇異摩爾也是這一新興產(chǎn)業(yè)環(huán)節(jié)的代表,除了完善的芯粒庫,該公司還可提供軟件設計平臺,可快速完成Chiplet 系統(tǒng)設計、驗證、仿真等工作。
國內Chiplet產(chǎn)業(yè)發(fā)展同樣堪稱有聲有色,在產(chǎn)品層面,華為公司早在2019年前后就已經(jīng)完成五大基礎Chiplet設計,包括CPU-Compute Die、AI-ComputeDie、Compute-lO Die、NIC-IO Die和Wireless-ACC Die,基礎Chiplet之間共享公共聯(lián)接,并遵循共同物理設計規(guī)則,可基于不同的Chiplet搭配組合出服務器CPU、AI加速期、Smart-NIC等多種數(shù)據(jù)中心大芯片產(chǎn)品,而在供應鏈上,設計服務、代工制造環(huán)節(jié)本土企業(yè)也正在加速崛起,以奇異摩爾為例,該公司目前除了完善的芯粒庫、軟件設計平臺外,還與本土IC供應鏈巨頭潤欣科技達成合作,可望進一步形成turnkey式的完整解決方案交付能力。
從英特爾、AMD到PAe、奇異摩爾,大小公司、新老勢力的活躍身影,共同勾勒出Chiplet當下在大算力AI芯片領域掀起的變革浪潮,令人猶如置身千禧年之初SoC大興的年代,對于半導體產(chǎn)業(yè)人而言,能夠在一場重大“范式轉移”的現(xiàn)場親眼見證,無疑是一種幸運。正如SoC大潮成就了以高通為代表的眾多Fabless企業(yè),深刻改變了全球半導體產(chǎn)業(yè)生態(tài),Chiplet的興起,同樣已經(jīng)預示了大算力芯片市場的重大機遇。
憑借著毫不遜色于海外廠商的本土Chiplet產(chǎn)業(yè)生態(tài),在這一寶貴的機遇窗口,大算力AI芯片產(chǎn)業(yè)鏈的自主創(chuàng)新將會涌現(xiàn)更多、更大的突破,也必將更有力支撐我國生成式人工智能全產(chǎn)業(yè)鏈發(fā)展。有理由期待,即將開幕的世界人工智能大會,將為我們帶來一系列驚喜。
-
語言模型
+關注
關注
0文章
538瀏覽量
10315 -
AI芯片
+關注
關注
17文章
1904瀏覽量
35162 -
奇異摩爾
+關注
關注
0文章
49瀏覽量
3455 -
AIGC
+關注
關注
1文章
367瀏覽量
1581 -
芯粒
+關注
關注
0文章
59瀏覽量
147
原文標題:AIGC催動異構集成浪潮,為本土產(chǎn)業(yè)帶來歷史性機遇
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論