算力是驅(qū)動(dòng)人工智能產(chǎn)業(yè)發(fā)展的核心動(dòng)力。在數(shù)據(jù)、算法和算力三大人工智能要素中,算力是將數(shù)據(jù)和算法真正通過硬件執(zhí)行的基礎(chǔ)單元,并將數(shù)據(jù)、算法轉(zhuǎn)化為最終的生產(chǎn)力。
隨著 AI 技術(shù)的高速發(fā)展,以及 AI 大模型的廣泛應(yīng)用,AI 算力需求正在快速增加,大概每隔 3-4 個(gè)月就會(huì)增加一倍。如今,對(duì) AI 任務(wù)所需算力總量的度量單位已經(jīng)進(jìn)入 PD 時(shí)代(PetaFlops/s-day),即用每秒千萬億次的計(jì)算機(jī)完整運(yùn)行一天消耗的算力總量作為度量單位。比如,特斯拉 FSD 全自動(dòng)駕駛系統(tǒng)的融合感知模型訓(xùn)練消耗的算力當(dāng)量是 500 個(gè) PD。
可以看到,在 AI 大模型時(shí)代,AI 領(lǐng)域的“軍備競(jìng)賽”正從過去算法和數(shù)據(jù)層面的競(jìng)爭(zhēng),轉(zhuǎn)變?yōu)榈讓铀懔Φ母?jìng)爭(zhēng)。機(jī)遇的背后,如何破解算力困局、實(shí)現(xiàn)算力優(yōu)化,也是整個(gè)行業(yè)需要解決的課題。近日,InfoQ 采訪了大禹智芯聯(lián)合創(chuàng)始人 /CTO、IEEE 國(guó)際頂會(huì) HPCA 名人堂成員蔣曉維博士,英特爾院士、大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán),以期探索 AI 大模型時(shí)代下的算力困局破解路徑,尋求算力優(yōu)化最優(yōu)解。
AI 大模型時(shí)代,算力需求大爆發(fā)
作為 AI 的重要子領(lǐng)域,機(jī)器學(xué)習(xí)的發(fā)展最早可以追溯至 20 世紀(jì) 50 年代。2012 年,AlexNet 首次引起廣泛關(guān)注,使得機(jī)器學(xué)習(xí)分支深度學(xué)習(xí)的熱度呈指數(shù)級(jí)上升。在傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)中,算力作為底層基礎(chǔ)設(shè)施扮演著至關(guān)重要的角色,不斷推動(dòng)上層技術(shù)迭代創(chuàng)新。使得這些傳統(tǒng)技術(shù)在圖像識(shí)別、圖像分類、自然語言處理、廣告推薦、自動(dòng)駕駛和圖像生成等領(lǐng)域愈加成熟,并在實(shí)踐中得到了廣泛應(yīng)用。
在 AI 領(lǐng)域,大家關(guān)注的焦點(diǎn)主要包括各種各樣的數(shù)據(jù)集,以及諸如 Caffe、TensorFlow、PyTorch 等深度學(xué)習(xí)框架,還有像 Horovod 這樣的分布式訓(xùn)練框架。與此同時(shí),底層芯片技術(shù)也在不斷演進(jìn)發(fā)展。最早企業(yè)使用 CPU 進(jìn)行訓(xùn)練;隨后,GPU/GPGPU(通用 GPU)成為訓(xùn)練和推理的標(biāo)準(zhǔn)設(shè)備;再到后來開始出現(xiàn)一些專用的 AI 芯片,比如谷歌的 TPU 芯片,以及國(guó)內(nèi)的寒武紀(jì)等等。
2022 年,AIGC 技術(shù)迎來應(yīng)用大爆發(fā),從 OpenAI 文本生成圖像系統(tǒng) Dall-E2 到 AI 繪畫神器 Stable Diffusion,AIGC 迅速火成“頂流”。
戴金權(quán)表示,AIGC 技術(shù)主要涵蓋兩類模型:一類是像 Stable Diffusion 這樣的擴(kuò)散模型,它可以生成圖片、音頻、視頻等等;另一類是大語言模型,從語言模型角度來生成文本、對(duì)話等等。這兩種模型的需求不一樣,擴(kuò)散模型更多是對(duì)計(jì)算的需求更高一些,而大語言模型更多是要求內(nèi)存的帶寬和大小能夠支撐。很多時(shí)候一個(gè)比較大的大語言模型,是無法放到一張顯卡上同時(shí)運(yùn)行的,可能需要更大的內(nèi)存支持。
“從英特爾的角度來看,我們需要對(duì)不同的計(jì)算、內(nèi)存、Transformer 注意力機(jī)制算子的要求,以及對(duì)模型進(jìn)行壓縮,不管是稀疏化還是低精度等等,通過多樣化技術(shù)對(duì)它進(jìn)行更好的支持。多模態(tài)是一個(gè)非常重要的方向,最終大模型追求的是這個(gè)模型不僅可以追求處理文本,還可以處理圖片、視頻等,不再是一個(gè)單一的算子,而是很多算子在模型里同時(shí)存在,如何來提供這樣的支持,都是一些技術(shù)上的挑戰(zhàn)。”戴金權(quán)說道。
2022 年 11 月,ChatGPT 橫空出世,成功掀起了 AI 大模型熱潮。隨后,國(guó)內(nèi)外陸續(xù)發(fā)布了多款 AI 大模型。
蔣曉維認(rèn)為,這一波大語言模型熱潮與之前的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)創(chuàng)新相比,確實(shí)存在諸多不同,并不斷刷新大家的認(rèn)知。“從 AlexNet、CNN+LSTM、VGG、ResNet,再到后來的 GAN 和最近的 Diffusion Model,以及 AIGC 領(lǐng)域的 Bert、GPT 等,這些模型領(lǐng)域的不斷迭代創(chuàng)新已經(jīng)持續(xù)至少 9 年了。ChatGPT 的出現(xiàn)實(shí)際上是過去 9 年各種技術(shù)棧有機(jī)結(jié)合后的一個(gè)積累和突破的過程。”
參數(shù)規(guī)模方面,GPT-3 的參數(shù)規(guī)模是 1750 億。近日,“天才黑客”喬治·霍茲在接受采訪時(shí)透露,GPT-4 參數(shù)高達(dá) 1.76 萬億,是 GPT-3 的 10 倍。算力需求方面,有數(shù)據(jù)顯示,GPT-3 的整個(gè)完整訓(xùn)練需要 3.14E11(TFLOPS)的每秒浮點(diǎn)運(yùn)算量。OpenAI 首席執(zhí)行官 Sam Altman 曾在接受采訪時(shí)指出,GTP-4 需要的計(jì)算量為 GTP-3 的 10 倍;GTP-5 需要的計(jì)算量為 GTP-3 的 200-400 倍。
大模型的背后離不開龐大算力的支撐,這種支撐通常來自于硬件與軟件兩方面。以英特爾為例,戴金權(quán)在接受采訪時(shí)表示,從算力角度來看,英特爾支持生成式 AI 的計(jì)算主要做兩方面工作:
一是在硬件層面。得益于英特爾的 XPU 戰(zhàn)略,比如一個(gè)筆記本電腦也可以有一個(gè)強(qiáng)大的 XPU 平臺(tái),有 CPU、集成顯卡、獨(dú)立顯卡,下一代還將有 VPU,利用不同的加速來對(duì)生成式 AI 進(jìn)行運(yùn)算的支撐。在數(shù)據(jù)中心端也是如此,第四代英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置的矩陣運(yùn)算加速器(英特爾 AMX),還有英特爾數(shù)據(jù)中心 GPU Ponte Vecchio(PVC)、Gaudi 系列專用 AI 加速器。
二是在軟件層面,利用軟件的技術(shù)將硬件的計(jì)算能力提供出來,包括與 TensorFlow、PyTorch、Hybrid Bonding 等開源軟件進(jìn)行了廣泛合作,與 OpenAI 合作的 AI 編譯器 Triton,以及和微軟合作優(yōu)化的做大規(guī)模分布式訓(xùn)練的軟件棧 DeepSpeed 等等。
如何破解 AI 算力困局?
龐大的算力需求也意味著需要高昂的訓(xùn)練成本。根據(jù)英偉達(dá)的數(shù)據(jù),GPT-3 需要使用 1024 顆 A100 芯片訓(xùn)練長(zhǎng)達(dá)一個(gè)月的時(shí)間,總成本約為 460 萬美元。而 GPT-4 的訓(xùn)練成本大約在 1 億美元左右,GPT-5 的成本會(huì)更高。
毫無疑問,AI 大模型的訓(xùn)練是一個(gè)“非常昂貴的過程”。所以也有觀點(diǎn)認(rèn)為,算力成本是限制 AI 大模型和生成式 AI 發(fā)展的因素之一。
“除了在軟件、模型和算法層面進(jìn)行多維度的優(yōu)化之外,CPU 通用計(jì)算領(lǐng)域的發(fā)展歷程可以為大模型算力領(lǐng)域的成本優(yōu)化提供一些借鑒意義”。蔣曉維提到。在 CPU 通用計(jì)算領(lǐng)域,提升算力存在兩種模型,分別是“Scale up”(水平方向上擴(kuò)展)和“Scale out”(垂直方向上擴(kuò)展)。“Scale up”是指通過各種方式將一臺(tái)機(jī)器擴(kuò)展到像小型機(jī)甚至大型機(jī)的規(guī)模,而“Scale out”是指通過由 CPU、內(nèi)存、存儲(chǔ)等商業(yè)化部件構(gòu)建單臺(tái)服務(wù)器,通過復(fù)制這些機(jī)器,并將這些機(jī)器以高性能的數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)起來,再結(jié)合一些系統(tǒng)層面的技術(shù)將其構(gòu)建成類似小型機(jī)的解決方案。傳統(tǒng)的小型機(jī)是“Scale up”的經(jīng)典案例,以單路和雙路 x86 服務(wù)器構(gòu)建的數(shù)據(jù)中心則是“Scale out”的代表。
從“Scale up”到“Scale out”是通用計(jì)算領(lǐng)域經(jīng)歷的一種發(fā)展過程。在國(guó)外,谷歌是一個(gè)早期的代表案例,而在國(guó)內(nèi),阿里是最著名的代表。阿里有一個(gè)著名的故事叫做“去 IOE”,即摒棄 IBM 的小型機(jī)、Oracle 的數(shù)據(jù)庫以及 EMC 的存儲(chǔ),通過商用化的 x86 服務(wù)器構(gòu)建“Scale out”的數(shù)據(jù)中心。
蔣曉維認(rèn)為,這或許是大型模型和 GPU 算力領(lǐng)域未來可能要走的路線。“目前我們?nèi)匀辉谧咦摺疭cale up’這條路線,單 GPU 服務(wù)器越做越大、也越做越貴。而‘Scale out’的方式,我認(rèn)為應(yīng)該是維持一個(gè)最基本的小單元,可能包含 CPU 、GPU 和高性能互聯(lián)網(wǎng)卡,不同的芯片器件可以由不同的廠家提供。英偉達(dá)的 Grace-Hopper superchip 目前是這種基本單元的代表方案。通過分布式方式和高性能、高效的網(wǎng)絡(luò)將計(jì)算單元互聯(lián)起來是一種降低成本的可能途徑。現(xiàn)如今,數(shù)據(jù)中心的網(wǎng)絡(luò)延遲已經(jīng)達(dá)到了亞微秒級(jí)別,甚至是納秒級(jí)別,完全具備了將計(jì)算單元高效互聯(lián)的能力。這是從‘Scale up’方式逐漸演變到‘Scale out’方式的一個(gè)維度。我們可以借鑒通用計(jì)算領(lǐng)域先前的一些經(jīng)驗(yàn)。”
此外,通過軟件來承擔(dān)一些高可用功能,如容錯(cuò)等,以及尋找第二供應(yīng)商,都是降低成本的關(guān)鍵手段。
構(gòu)建分布式算力
在降低算力成本之外,如何更好地利用算力、提升算力的效率也是業(yè)界亟待解決的問題。而如何將計(jì)算能力分布式化、構(gòu)建分布式計(jì)算能力,正是算力優(yōu)化的前提。
在過去,大家對(duì) AI 芯片領(lǐng)域的關(guān)注點(diǎn)主要集中在推理方面,但現(xiàn)在大模型使得人們更關(guān)注分布式訓(xùn)練,尤其是分布式訓(xùn)練集群的構(gòu)建。因?yàn)閱螐埧o法滿足需求,所以需要構(gòu)建分布式訓(xùn)練集群,通過高效的互聯(lián)將大量 GPU 連接起來。
除了提升單個(gè) GPU 芯片的能力之外,另一個(gè)核心問題是如何高效地將 GPU 單卡構(gòu)建成分布式訓(xùn)練能力。這是當(dāng)前大模型算力構(gòu)建過程中一個(gè)非常核心的領(lǐng)域和技術(shù)。這需要超級(jí)計(jì)算網(wǎng)絡(luò)的能力和高性能網(wǎng)絡(luò),以高效地互聯(lián)單個(gè)節(jié)點(diǎn)的 GPU 計(jì)算單元,并且還需要更高效的 CPU 與 GPU 協(xié)同能力。最近發(fā)布的英偉達(dá)的 DGX GH200 正是這些技術(shù)的巔峰體現(xiàn)。
蔣曉維認(rèn)為,英偉達(dá)不僅僅是一家 GPU 算力公司,同時(shí)也是一家高性能網(wǎng)絡(luò)和 CPU 公司。“我們可以看下英偉達(dá)的核心技術(shù)。首先,它在芯片功能方面往往是采用最先進(jìn)的制程技術(shù),同時(shí)需要在最先進(jìn)的制程支持下達(dá)到單 die 面積以及功耗和散熱的極限。因此,對(duì)于芯片設(shè)計(jì)領(lǐng)域以及制程的各個(gè)環(huán)節(jié),都有非常高的要求。我認(rèn)為這是第一個(gè)基礎(chǔ),就是芯片設(shè)計(jì)領(lǐng)域,包括先進(jìn)的制程技術(shù),高計(jì)算能力的單卡芯片。在此基礎(chǔ)上,我們?cè)贅?gòu)建多機(jī)多卡的訓(xùn)練,將高效的單卡互聯(lián)起來。這就需要高性能網(wǎng)絡(luò)的能力,通過這種高性能網(wǎng)絡(luò)能力實(shí)現(xiàn)單卡性能的‘線性’理想狀況,同時(shí)在擴(kuò)展性方面也有很高的基本要求。”
在過去的幾十年中,英偉達(dá)曾涉足 x86 芯片組領(lǐng)域,并且在退出該業(yè)務(wù)后一直致力于 ARM CPU 的研發(fā)。目前,英偉達(dá)已經(jīng)推出了基于 ARM 架構(gòu)的 Grace 芯片產(chǎn)品,并通過 NvLink C2C 能力在最近發(fā)布的 Grace Hopper 超級(jí)芯片中實(shí)現(xiàn)了高速高效的 GPU 和 CPU 之間的互聯(lián)。通過 NvLink 技術(shù)實(shí)現(xiàn)多個(gè) CPU 芯片之間的互聯(lián),以實(shí)現(xiàn)雙路甚至多路 CPU 架構(gòu)。除此之外,在完成對(duì) Mellanox 的收購(gòu)之后,英偉達(dá)在高性能網(wǎng)絡(luò)領(lǐng)域的 Infiniband、RDMA、GDR 等技術(shù)也充分支持了多 GPU 服務(wù)器節(jié)點(diǎn)直接的互聯(lián),為“Scale out”的部署奠定了基礎(chǔ)。
此外,英特爾和 AMD 也在同時(shí)在 CPU、GPU 和高性能網(wǎng)絡(luò)互聯(lián)技術(shù)領(lǐng)域具備強(qiáng)大能力。在 CPU 領(lǐng)域,英特爾和 AMD 都是行業(yè)領(lǐng)導(dǎo)者。在網(wǎng)絡(luò)領(lǐng)域,英特爾擁有自己的 Mount Evans(IPU),而 AMD 在收購(gòu) Pansando 后在 DPU 領(lǐng)域也獲得了強(qiáng)大實(shí)力。在帶內(nèi) - 帶間互聯(lián)方面,英特爾通過 QPI 或 UPI 等技術(shù)實(shí)現(xiàn)了 CPU 的多插槽互連能力。同時(shí),它還有像 CXL 這樣的技術(shù),可以實(shí)現(xiàn)加速器與 CPU 或內(nèi)存與 CPU 之間的高效互連,以及自身功能所擁有的 EMIB(2.5D 封裝技術(shù)),實(shí)現(xiàn)芯片之間的互聯(lián)。而 AMD 則擁有 Hyper Transport 以及基于此的 Infinity Fabric 等核心技術(shù),可以實(shí)現(xiàn)帶內(nèi) - 帶間芯片之間的高效互連。所有這些技術(shù)都為構(gòu)建分布式算力提供了必要的基礎(chǔ)。
目前,英偉達(dá)的 DGX GH200 產(chǎn)品已經(jīng)達(dá)到了極致水平,其擁有 1.8 萬個(gè) CPU 核心、256 個(gè) GPU 和 144T 內(nèi)存,它們之間通過各種高速互聯(lián)技術(shù)有機(jī)地結(jié)合在一起。這種模式已經(jīng)對(duì)分布式訓(xùn)練框架和模式產(chǎn)生了重大影響。接下來的問題是,如何支持這種設(shè)備類型的操作系統(tǒng)?如何支持如此大規(guī)模的設(shè)備內(nèi)存?這些都是未來技術(shù)發(fā)展的方向和挑戰(zhàn)。
算力優(yōu)化探索與實(shí)踐
在具體的算力優(yōu)化探索與實(shí)踐中,蔣曉維表示,作為一家 DPU 公司,大禹智芯關(guān)注的是分布式集群算力模型領(lǐng)域的優(yōu)化,主要集中在從單機(jī)單卡到多機(jī)規(guī)模的優(yōu)化。
在分布式訓(xùn)練場(chǎng)景中,尤其是訓(xùn)練大型模型如 GPT 時(shí),通常需要使用成千上萬個(gè) GPU。在這個(gè)過程中,大禹智芯將算力或芯片執(zhí)行的計(jì)算分為兩個(gè)維度:
第一個(gè)維度是純計(jì)算,即模型的前向傳播和反向傳播過程,主要在 GPU 上完成。
另一個(gè)維度是耗費(fèi)大量算力但不是 GPU 算力的部分,即訓(xùn)練中的梯度下降過程,在分布式 GPU 中,需要對(duì)參數(shù)進(jìn)行全局約簡(jiǎn)操作,以獲得最終的全局約簡(jiǎn)結(jié)果。可以將這部分稱為訓(xùn)練中的 I/O 部分,它主要消耗芯片的網(wǎng)絡(luò)資源而不是 GPU 算力。這部分也是大禹智芯產(chǎn)品關(guān)注的焦點(diǎn)。
在大型模型訓(xùn)練中,當(dāng)達(dá)到 2000 個(gè) GPU 時(shí),I/O 部分和計(jì)算部分的比例已經(jīng)達(dá)到 1:1。隨著 GPU 數(shù)量超過 2000,I/O 部分所花費(fèi)的時(shí)間和算力可能會(huì)超過計(jì)算部分。因此,大禹智芯專注在分布式訓(xùn)練中優(yōu)化 I/O 部分,利用核心網(wǎng)絡(luò)技術(shù)能力來進(jìn)行優(yōu)化。
“在算力優(yōu)化方面,我們有幾個(gè)核心技術(shù):首先是我們支持高度靈活且可編程的硬件零擁塞控制技術(shù),用于取代傳統(tǒng)以太網(wǎng)上的 RoCE v2 協(xié)議。傳統(tǒng)協(xié)議在流量控制方面比較簡(jiǎn)單單一,存在一些問題。我們的技術(shù)提供了更靈活和可編程的解決方案,解決了這些問題。第二,我們支持超低延遲特性。第三,我們支持用于分布式訓(xùn)練中的 MPI 消息傳遞這種集體通信。通過對(duì)各個(gè)維度進(jìn)行大量硬件優(yōu)化,并結(jié)合 RDMA 和 MPI,在訓(xùn)練過程中實(shí)現(xiàn)與 InfiniBand 相當(dāng)?shù)男阅堋_@些是我們?cè)趶膯螜C(jī)單卡到分布式訓(xùn)練的過程中進(jìn)行的算力網(wǎng)絡(luò)優(yōu)化工作。”蔣曉維介紹道。
據(jù)了解,目前在構(gòu)建 GPU 算力網(wǎng)絡(luò)方面,大多數(shù)公司仍選擇使用 InfiniBand 網(wǎng)卡和交換機(jī),其中主要使用兩種核心技術(shù):一種是 RDMA(遠(yuǎn)程直接內(nèi)存訪問) 技術(shù),通過 GPUDirect RDMA 來消除 CPU 在 I/O 層面上的控制角色,從而降低整個(gè)訓(xùn)練過程中的 I/O 消耗。另一種技術(shù)是 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol),這也是 Mellanox 的核心技術(shù),通過 SHARP 技術(shù)來減少在分布式算力過程中對(duì)網(wǎng)絡(luò)帶寬的消耗。
目前,大多數(shù)公司在構(gòu)建算力網(wǎng)絡(luò)時(shí)仍基于英偉達(dá)的解決方案。然而,一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始在以太網(wǎng)上構(gòu)建 GPU 算力網(wǎng)絡(luò),不再完全依賴 InfiniBand 網(wǎng)絡(luò)。在這種情況下,一個(gè)核心問題是找到一個(gè)能夠完全替代 InfiniBand 上 RDMA 的技術(shù)。
英偉達(dá)除了在 InfiniBand 上有 RDMA 技術(shù)之外,也有以太網(wǎng)上的 RDMA 技術(shù),稱為 RoCE v2。然而,在許多頭部互聯(lián)網(wǎng)公司應(yīng)用中,這種技術(shù)仍然存在一些問題,所以國(guó)際國(guó)內(nèi)一些頭部互聯(lián)網(wǎng)公司已經(jīng)開始研發(fā)自己的技術(shù),用以取代 RoCE v2 以太網(wǎng)上的 RDMA,并通過自研的方式實(shí)現(xiàn)更可靠的運(yùn)行。他們能夠在有丟包的網(wǎng)絡(luò)環(huán)境中穩(wěn)定地運(yùn)行 RDMA,并將這項(xiàng)技術(shù)應(yīng)用于 GPU 訓(xùn)練集群中,這是一些行業(yè)內(nèi)領(lǐng)先公司具備的核心能力。
“對(duì)于大禹智芯來說,我們的工作完全基于這些頭部公司的實(shí)踐和技術(shù)趨勢(shì)。我們也在致力于開發(fā)類似的產(chǎn)品,因?yàn)槲覀兿嘈胚@些頭部公司的核心技術(shù)往往只局限于他們自身的部署。但是,我們認(rèn)為更廣泛的公司可能并不具備這樣的能力。像大禹智芯這樣的第三方芯片公司的價(jià)值就在于通過通用化的技術(shù),為更廣泛的場(chǎng)景提供支持,并通過更普適的方式將這些技術(shù)落地。”蔣曉維說道。
寫在最后:軟件算法設(shè)計(jì)的多樣化亦是關(guān)鍵
在分布式算力構(gòu)建方面,蔣曉維認(rèn)為,構(gòu)建分布式算力網(wǎng)絡(luò)需要與芯片領(lǐng)域緊密結(jié)合,并且在每個(gè)單元上都需要應(yīng)用先進(jìn)的制程技術(shù),以支持最大規(guī)模的帶寬。未來,需要重點(diǎn)考慮兩方面:
首先是芯片產(chǎn)業(yè)的發(fā)展。這涉及到各種芯片 IP,例如 SerDes、PCIE 控制器等核心 IP,還有 EDA 工具和先進(jìn)制程技術(shù)。這些都是構(gòu)建各種算力的基本單元能力。
其次是國(guó)內(nèi)的各種 xPU 公司。目前,國(guó)內(nèi)的 xPU 公司仍處于早期階段,各自為政,發(fā)展還比較零散。
“在國(guó)內(nèi),要在相對(duì)較短的時(shí)間內(nèi)集合整個(gè)產(chǎn)業(yè)的力量共同實(shí)現(xiàn)目標(biāo),而不是通過一家公司逐步發(fā)展各個(gè)領(lǐng)域的能力,可能需要采取某種方式來結(jié)合產(chǎn)業(yè)力量共同實(shí)現(xiàn)目標(biāo)。在這方面,我認(rèn)為有一個(gè)關(guān)鍵技術(shù)是芯片領(lǐng)域的芯片模塊化(Chiplet)技術(shù),這是一項(xiàng)非常有潛力的技術(shù)。通過芯片模塊化,我們可以通過成本較低的封裝技術(shù)將不同的芯片模塊集成在一顆芯片上,從而實(shí)現(xiàn)讓每個(gè)領(lǐng)域的專業(yè)公司專注于其擅長(zhǎng)的事情。另外,芯片模塊化本身還是一個(gè)相對(duì)較新的概念,例如芯片模塊化的標(biāo)準(zhǔn)化組織 UCIe 也剛剛成立不久。因此,在這個(gè)領(lǐng)域,國(guó)內(nèi)與國(guó)外之間肯定存在差距,但差距并不是特別大,仍然有迎頭趕上的機(jī)會(huì)。”蔣曉維總結(jié)道。
展望未來,戴金權(quán)希望可以做到“AI 無所不在”,不管是在本地端、云端還是邊緣端。從這個(gè)角度來看,從小尺寸設(shè)備擴(kuò)展到大規(guī)模數(shù)據(jù)中心的 XPU 架構(gòu),是一個(gè)非常重要的、且能夠支持未來 AIGC 技術(shù)無所不在的需求的趨勢(shì)。從軟件的角度來看,現(xiàn)在的大模型基本上是以 Transformer 架構(gòu)作為基礎(chǔ)構(gòu)件,目前業(yè)界正在做大量的研究工作,探索 Transformer 架構(gòu)對(duì)內(nèi)存的需求,包括內(nèi)存帶寬、內(nèi)存容量以及計(jì)算需求如何進(jìn)行更好的加速。從發(fā)展的眼光來看,至少 Transformer 這樣的大模型可能會(huì)有更大的尺寸,包括輸入上下文的擴(kuò)展,將來可能是今天的幾倍、幾十倍甚至更高。這必然會(huì)對(duì)軟件算法的設(shè)計(jì),比如低精度、低比特、壓縮、稀疏化,包括注意力機(jī)制設(shè)計(jì)等有不同的需求。
“所以,軟件算法設(shè)計(jì)的多樣化,是我們認(rèn)為未來有助于滿足 AIGC 和大語言模型的算力需求的重要組成部分。這些需求可能會(huì)進(jìn)一步引導(dǎo)我們未來的訓(xùn)練、推理,以及芯片的架構(gòu)等。此外,大模型還在快速發(fā)展當(dāng)中,可能在更長(zhǎng)的時(shí)間段,比如十年、幾十年的時(shí)間里有很多的發(fā)展,有不同算法級(jí)別的發(fā)展,以及在不同場(chǎng)景適配的發(fā)展,這些都會(huì)對(duì) AI 芯片,包括對(duì)所有計(jì)算的芯片、計(jì)算的能力帶來深遠(yuǎn)的影響。”戴金權(quán)總結(jié)道。
-
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269485 -
模塊化
+關(guān)注
關(guān)注
0文章
332瀏覽量
21377 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121298 -
大模型
+關(guān)注
關(guān)注
2文章
2491瀏覽量
2870 -
AI大模型
+關(guān)注
關(guān)注
0文章
316瀏覽量
322
原文標(biāo)題:AI 大模型競(jìng)爭(zhēng)白熱化,算力優(yōu)化才是“超車點(diǎn)”?
文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論