色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從ChatGPT等大模型的興起,看未來計算芯片的發展趨勢

sakobpqhz ? 來源:算力基建 ? 2023-05-30 11:22 ? 次閱讀

ChatGPT的火爆,直接引爆了大模型的繁榮,也使得NVIDIA GPU供不應求。

從發展的角度看,GPU并不是大模型最高效的計算平臺。

GPT等大模型為什么沒有突破萬億參數?核心原因在于在現在的GPU平臺上,性能和成本都達到了一個極限。想持續支撐萬億以上參數的更大的模型,需要讓性能數量級提升,以及單位算力成本數量級的下降。這必然需要全新架構的AI計算平臺。

本文拋磚引玉,期待行業更多的探討。

01.綜述

大模型為什么“不約而同”的停留在上千億的參數規模,沒有突破萬億參數?原因主要在于,在目前的架構體系下:

單個GPU性能增長(Scale up)有限,想要增加性能,只有通過增加計算集群規模(Scale out)的方式;

上萬GPU的計算集群,其東西向的流量交互指數級提升,受限于集群的網絡帶寬,約束了集群節點計算性能的發揮;

受阿姆達爾定律的約束,并行度無法無限擴展,增加集群規模的方式也到了瓶頸;

并且,如此大的集群規模,成本也變得不可承受。

總的來說,為了數量級的突破算力上限,需要從如下幾個方面入手:

首先,性能提升不單單是單個芯片的事情,而是一個系統工程。因此,需要從芯片軟硬件到整機再到數據中心全體系進行協同優化。

其次,擴大集群規模,也即大家熟知的Scale Out。要想Scale out,就需要增強集群的內聯交互,也就是要更高的帶寬,更高效的高性能網絡。同時,還需要降低單個計算節點的成本。

最后,最本質的,Scale Up,增加單個節點的性能。這個是最本質的能夠提升算力的方法。在功耗、工藝、成本等因素的約束下,要想提升性能,只能從軟硬件架構和微架構實現方面去挖潛。

02.全體系協同優化

0a7eb25a-fe81-11ed-90ce-dac502259ad0.png

算力,不僅僅是微觀芯片性能的事情,而是宏觀上復雜而龐大的系統工程。整個體系中,從工藝到軟件,從芯片到數據中心,整個算力體系中的各個領域的發展都已經達到一個相對穩定而成熟的階段。而AI大模型的發展,仍然需要算力大踏步的提升,這不僅僅需要各領域按部就班的持續優化,更需要各個領域間的跨域協同優化創新:

半導體工藝和封裝:更先進的工藝、3D集成,以及Chiplet封裝等。

芯片實現(微架構):通過一些創新的設計實現,如存算一體、DSA架構設計以及各類新型存儲等。

系統架構:比如開放精簡的RISC-v,異構計算逐漸走向超異構計算,以及駕馭復雜計算的軟硬件融合等。

系統軟件、框架、庫:基礎的如OS、Hypervisor、容器,以及需要持續優化和開源開放的各類計算框架和庫等。

業務應用(算法):業務場景算法優化、算法的并行性優化等;以及系統的靈活性和可編程性設計;系統的控制和管理、系統的擴展性等。

硬件,包括服務器、交換機等:多個功能芯片的板卡集成,定制板卡和服務器,服務器電源和散熱優化;

數據中心基礎設施:如綠色數據中心,液冷、PUE優化等;

數據中心運營和管理:如超大規模數據中心運營管理,跨數據中心運營和管理調度等。

03.Scale out:增加集群規模

0aa88562-fe81-11ed-90ce-dac502259ad0.png

N個節點通過連線兩兩相連,總共的連線數據需要N*(N-1)/2。據此公式,集群如果只有一個節點,那就沒有東西向的內部流量;隨著集群中節點數量的增多,內部交互數量會飛速的增長,隨之而來的,也就是集群內部的交互流量猛增。 據統計,目前在大型數據中心中的東西向網絡流量占比超過85%;AI大模型訓練集群,其節點數量基本上超過1000,其東西向流量估計超過90%。理論上,在各個連接流量均等的情況下,目前主流網卡200Gbps的帶寬,即使所有都是東西向流量,每兩個節點之間的流量也僅僅只能有200/1000 = 0.2 Gbps。一方面,南北向的流量被極限壓縮,單個連接的東西向流量又隨著集群數量的增長反而持續下降,這進一步凸顯了網絡帶寬瓶頸的問題。 與此同時,受阿姆達爾定律的影響,整體算力并不是跟節點數量呈理想的線性關系,而是隨著集群規模的增加,整體算力的增加會逐漸趨緩。 要想通過Scale Out方式提升集群的算力:

首先就是要快速的提升網絡帶寬。

0ad3e090-fe81-11ed-90ce-dac502259ad0.png

其次,要有更優的高性能網絡支持。通過高性能網絡功能優化,如在擁塞控制、多路徑負載均衡ECMP、亂序交付、高可擴展性、故障快速恢復、Incast優化等方面進行調優,實現更優的高性能網絡能力。

0b0b403a-fe81-11ed-90ce-dac502259ad0.png

再次,AI計算數據到網絡的更快速的路徑。傳統架構,GPU作為加速卡掛載CPU外面,從GPU到網絡的數據傳輸路徑非常長,并且CPU要參與傳輸的控制。可以通過例如GPU集成RoCE高性能網卡的方式,繞過CPU、DPU/NIC直接把數據傳輸出去。

最后,是要從算法和軟件處層次,提升并行度,并盡可能的降低并行程序之間的耦合度。

04.Scale Up:增加單芯片性能東西向流量本質上屬于內部“損耗”,通過Scale Out的方式提升性能對網絡的壓力巨大,并且有性能上限,屬于“治標不治本”的方式。 要想真正的大規模的提升算力,最本質最有效的辦法,還是要通過提升單個計算節點、單個計算芯片性能的方式。 要想提升單芯片性能:

首先,是提升芯片規模。通過工藝進步、3D和Chiplet封裝,提升單個芯片的設計規模。目前,主流的大芯片晶體管數量在500億。Intel計劃到2030年,會將單芯片晶體管數量提高到1萬億(提升20倍)。

第二,提升單位晶體管資源的性能效率。6個主要的處理器類型:CPU、協處理器、GPU、FPGA、DSA和ASIC,CPU最通用,但性能效率最低,而ASIC最專用,性能效率最高。在計算處理器方面,要盡可能選擇ASIC或接近ASIC的計算引擎,盡可能的提升此類處理器在整個系統中的計算量占比。

第三,提升通用靈活性。性能和靈活性是一對矛盾,為什么不能在一個芯片里,完全100%的采用ASIC級別的計算引擎?原因在于,純粹的ASIC沒有意義。芯片需要得到大范圍的使用,才能攤薄研發成本。這就需要考慮芯片的通用靈活性。

0b296380-fe81-11ed-90ce-dac502259ad0.png

目前,受AI等各類大算力場景的驅動,異構計算已經成為計算架構的主流。未來,隨著大模型等更高算力需求場景的進一步發展,計算架構需要從異構計算進一步走向超異構計算:

第一階段,單CPU的串行計算;

第二階段,多CPU的同構并行計算;

第三階段,CPU+GPU的異構并行計算;

第四階段,CPU+DSA的異構并行計算;

第五階段,多種異構融合的超異構并行計算。

05.大算力芯片的通用性分析到目前為止,谷歌TPU都難言成功:雖然TPU可以做到,從芯片到框架,甚至到AI應用,谷歌可以做到全棧優化,但TPU仍然無法做到更大規模的落地,并且拖累了上層AI業務的發展。原因其實很簡單:

當上層的業務邏輯和算法一直處于快速迭代的時候,是很難把它固化成電路來進行加速的。

雖然谷歌發明了Transformer,但受限于其底層芯片TPU,使得上層業務需要考慮跟底層芯片的兼容,無法全身心投入到模型開發;

AI模型的發展,目前仍在“煉丹”的發展階段,誰能快速試錯快速迭代,誰就最有可能成功。

也因此,在AI大模型的發展進程中,谷歌落后了。而OpenAI沒有包袱,可以選擇最優的計算平臺(通用的GPU+CUDA平臺),全身心專注到自己模型的研發,率先實現了ChatGPT及GPT4這樣的高質量AI大模型,從而引領了AGI的大爆發時代。 結論:在目前AI算法快速演進的今天,通用性比性能重要。也因此,NVIDIA GPU通過在GPU中集成CUDA core和Tensor Core,既兼顧了通用性,又兼顧了靈活性,成為目前最佳的AI計算平臺。06.相關趨勢案例

6.1 Intel Hawana GAUDI

0b509c2a-fe81-11ed-90ce-dac502259ad0.png

Gaudi是一個典型的Tensor加速器。從第一代Gaudi的16nm工藝提升到第二代的7nm工藝,Gaudi2將訓練和推理性能提升到一個全新的水平。它將AI定制Tensor處理器核心的數量從8個增加到24個,增加了對FP8的支持,并集成了一個媒體處理引擎,用于處理壓縮媒體,以卸載主機子系統。Gaudi2的封裝內存在每秒2.45 Tbps的帶寬下增加了三倍,達到96GB的HBM2e。

0bbb2338-fe81-11ed-90ce-dac502259ad0.png

Gaudi可以通過24個100Gbps的RDMA高性能網卡實現非常高的集群擴展能力。實際的集群架構設計,可以根據具體的需求靈活設計。 相比傳統的GPU、TPU等加速器,Gaudi的最大亮點在于集成了超高帶寬的高性能網絡。從而提升了集群節點間的東西向流量交互效率,也使得更大規模的集群設計成為可能。

6.2 Graphcore IPU

0bef43ca-fe81-11ed-90ce-dac502259ad0.png

上圖為Graphcore的IPU處理器,IPU處理器具有1216個Tile(每個Tile包含一個Core和它的本地內存),交換結構(一個片內互連),IPU鏈路接口用于連接到其他IPU,PCIe接口用于與主機連接。 Graphcore在架構上是類似NVIDIA GPU的產品,是相對通用的計算架構,比較符合AI計算的要求。但受限于沒有類似Tensor core這樣的協處理優化,在性能上存在劣勢;以及還沒有形成類似NVIDIA CUDA這樣強大的開發框架和豐富生態。

6.3 Tesla DOJO

0c44ae28-fe81-11ed-90ce-dac502259ad0.png

0c649c7e-fe81-11ed-90ce-dac502259ad0.png

0c9ee320-fe81-11ed-90ce-dac502259ad0.png

Tesla Dojo芯片和相應的整個集群系統,跟傳統的設計理念有很大的不同。其基于整個POD級的超強的擴展性和全系統棧協同設計能力。Dojo系統的每個Node都是完全對稱的,是一個POD級完全UMA的架構。或者說,Dojo的擴展性,跨過了芯片、Tile、Cabinet,達到了POD級別。 DOJO是Tesla專用于數據中心AI訓練的芯片、集群和解決方案。DOJO的可擴展性能力,使得AI工程師可以專注在模型開發和訓練本身,而較少考慮模型的分割和交互等跟硬件特性相關的細節。 DOJO也是比較通用的計算架構:內核是一個CPU+AI協處理器的做法,然后多核心組成芯片,芯片再組織成POD。宏觀上,跟NVIDIA GPU的整體思路接近。

6.4 Tenstorrent Grayskull & Wormhole

Tesla Dojo和Tenstorrent的AI系列芯片都是Jim Keller主導的項目,架構設計理念有很多相似之處。

0cc4aea2-fe81-11ed-90ce-dac502259ad0.png

基本架構單元是Tensix核心,它圍繞一個大型計算引擎構建,該引擎從單個密集數學單元承擔3 TOPS計算的絕大部分。

0cf08e96-fe81-11ed-90ce-dac502259ad0.png

Tenstorrent的Grayskull加速器芯片實現了一個由Tensix內核組成12x10陣列,峰值性能為368 INT8 TOPS。

0d1f0b0e-fe81-11ed-90ce-dac502259ad0.png

Tenstorrent的第一代芯片代號是Grayskull,第二代芯片代號是Wormhole,兩者宏觀架構接近。使用Wormhole模塊,Tenstorrent設計了nebula(星云),一個4U服務器包含32個Wormhole芯片。

0d7ceeb8-fe81-11ed-90ce-dac502259ad0.png


這是一個完整的48U的機架,它像一個2D網格一樣,每個Wormhole服務器連接在另一個服務器的對等端,就像一個大而均勻的Mesh網絡。 Tenstorrent通過這種多網絡連接的方式,實現了集群的極致擴展性。其整體思路和Tesla DOJO類似。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51157

    瀏覽量

    426729
  • 服務器
    +關注

    關注

    12

    文章

    9295

    瀏覽量

    85964
  • 數據中心
    +關注

    關注

    16

    文章

    4855

    瀏覽量

    72348
  • ChatGPT
    +關注

    關注

    29

    文章

    1566

    瀏覽量

    8006

原文標題:從ChatGPT等大模型的興起,看未來計算芯片的發展趨勢

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    的對話,提供各種信息和幫助。我也聽聞大模型在智能寫作、智能客服領域有著出色的表現,能夠大大提高工作效率和服務質量。但是,我對于大模型背后的技術原理、發展歷程以及它對社會和
    發表于 12-24 13:10

    未來物流發展趨勢與TMS的關系

    隨著全球化的加速和電子商務的蓬勃發展,物流行業正經歷著前所未有的變革。未來物流的發展趨勢不僅影響著供應鏈的效率和成本,也對企業的競爭力產生深遠影響。運輸管理系統(Transportation
    的頭像 發表于 11-26 09:40 ?543次閱讀

    未來的ar技術發展趨勢

    增強現實(AR)技術,作為連接虛擬世界和現實世界的橋梁,近年來得到了飛速的發展。隨著技術的不斷進步和創新,未來的AR技術將呈現出以下發展趨勢: 1. 更高的集成度和便攜性 隨著微型化技術的發展
    的頭像 發表于 11-11 10:07 ?756次閱讀

    邊緣計算未來發展趨勢

    邊緣計算未來發展趨勢呈現出多元化和高速增長的態勢,以下是對其未來發展趨勢的分析: 一、技術融合與創新 與5G、AI技術的深度融合 隨著5G
    的頭像 發表于 10-24 14:21 ?1098次閱讀

    計算技術的未來發展趨勢

    計算技術的未來發展趨勢呈現出多元化和高度集成的特點,以下是對其未來發展趨勢的介紹: 一、市場規模持續增長 全球范圍 : 根據權威機構發布的
    的頭像 發表于 10-24 09:20 ?1603次閱讀

    智能駕駛技術發展趨勢

    智能駕駛技術是當前汽車行業的重要發展趨勢之一,它融合了傳感器技術、人工智能、大數據和云計算多種先進技術,旨在實現車輛的自主駕駛和智能化管理。以下是對智能駕駛技術發展趨勢的分析: 一、
    的頭像 發表于 10-23 15:41 ?907次閱讀

    未來AI大模型發展趨勢

    未來AI大模型發展趨勢將呈現多元化和深入化的特點,以下是對其發展趨勢的分析: 一、技術驅動與創新 算法與架構優化 : 隨著Transformer架構的廣泛應用,AI大
    的頭像 發表于 10-23 15:06 ?822次閱讀

    變阻器的未來發展趨勢和前景如何?是否有替代品出現?

    變阻器是一種用于調節電路中電阻值的電子元件,廣泛應用于各種電子設備和系統中。隨著科技的不斷進步和應用領域的擴展,變阻器的未來發展趨勢和前景備受關注。 未來變阻器將趨向于智能化和多功能化,隨著物聯網
    發表于 10-10 14:35

    嵌入式系統的未來趨勢有哪些?

    嵌入式系統是指將我們的操作系統和功能軟件集成于計算機硬件系統之中,形成一個專用的計算機系統。那么嵌入式系統的未來趨勢有哪些呢? 1. 人工智能與機器學習的整合 隨著現代人工智能(AI)
    發表于 09-12 15:42

    未來隧道定位導航技術有哪些發展趨勢

    隨著現代交通網絡的發展,隧道作為連接城市、跨越山川的重要基礎設施,其安全性與通行效率日益受到重視。隧道定位導航技術作為智能交通系統的重要組成部分,正迎來前所未有的發展機遇。那么,未來隧道定位導航技術將有哪些
    的頭像 發表于 08-16 10:35 ?617次閱讀
    <b class='flag-5'>未來</b>隧道定位導航技術有哪些<b class='flag-5'>發展趨勢</b>

    模型發展趨勢:多模態、自主智能、邊緣智能…

    怎樣的發展趨勢,仍然是業界關注的重點。日前,在“太湖對話·人工智能+”論壇上,諸多學術界和產業界人士就相關話題進行了深刻探討。 ? AI 大模型的五個發展方向 ? 在會上,中國工程院院士,清華大學講席教授、智能產業研究院(AIR
    的頭像 發表于 06-12 00:06 ?3107次閱讀

    名單公布!【書籍評測活動NO.34】大語言模型應用指南:以ChatGPT為起點,入門到精通的AI實踐教程

    應用的基礎模塊抽象正在逐漸達成共識,例如對長期記憶和 RAG 框架的抽象和對提示模板的抽象。這一趨勢將有助于不同框架更好地協同發展,實現互相兼容,從而推動更廣泛的應用和創新。 在模型層,大語言
    發表于 06-03 11:39

    中國網絡交換芯片市場發展趨勢

    中國網絡交換芯片市場的發展趨勢受多種因素影響,包括技術進步、政策推動、市場需求以及全球產業鏈的變化。以下是對該市場發展趨勢的一些分析。
    的頭像 發表于 03-18 14:02 ?951次閱讀

    制冷劑的發展歷程與發展趨勢

    近10年替代物的發展,無論理論上或從實踐上,很難找到一種不影響環境的完全理想的替代物,高效、安全且價格不貴。因此,許多專家提出,第四代制冷劑退回自然工質是必然的
    發表于 03-02 17:52

    國產隔離芯片的質量控制與發展趨勢

    本文將從結構、制造工藝、測試手段等方面對國產隔離芯片的質量控制進行分析,并展望其未來發展趨勢
    的頭像 發表于 02-02 16:14 ?1026次閱讀
    國產隔離<b class='flag-5'>芯片</b>的質量控制與<b class='flag-5'>發展趨勢</b>
    主站蜘蛛池模板: 我的年轻漂亮继坶三级 | 久久高清一本无码 | 午夜免费福利小电影 | 免费伦理片网站 | 国产成人无码视频一区二区三区 | 2018久久视频在线视频观看 | 色爰情人网站 | 办公室韩国电影免费完整版 | 美女叉腿掰阴大胆艺术照 | yellow免费| 国精一区二区AV在线观看网站 | 欧美自拍亚洲综合图区 | 理论片在线观看片免费 | 中文字幕无线观看不卡网站 | 老师洗澡让我吃她胸的视频 | 亚洲人成影院在线播放 | 黑人巨茎vide抽搐 | 成年女人免费影院播放 | 40分钟超爽大片黄 | 久久这里只有精品1 | 菠萝菠萝蜜视频在线看1 | 免费的好黄的漫画 | 日本国产成人精品无码区在线网站 | 久久99影院 | 国产免费人成在线看视频 | 好爽好深太大了再快一点 | 亚洲免费一区二区 | 超清无码波多野吉衣与黑人 | 国产午夜精品久久久久九九 | 国产免费内射又粗又爽密桃视频 | 后式大肥臀国产在线 | 亚洲AV久久婷婷蜜臀无码不卡 | 午夜一级免费视频 | 亚洲国语在线视频手机在线 | 暖暖直播免费观看韩国 | 国产成人免费不卡在线观看 | 久久伊人久久 | 最近中文字幕完整版免费高清 | 亚洲乱亚洲乱妇在线观看 | 日本无翼恶漫画大全优优漫画 | 日本久久精品免视看国产成人 |