色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是CUDA?誰能打破CUDA的護城河?

Linelayout ? 來源:半導體產業洞察 ? 2023-12-28 10:26 ? 次閱讀

在最近的一場“AI Everywhere”發布會上,Intel的CEO Pat Gelsinger炮轟Nvidia的CUDA生態護城河并不深,而且已經成為行業的眾矢之的。Gelsinger稱,“整個行業都希望能干掉CUDA,包括Google、OpenAI等公司都在想方設法讓人工智能訓練更加開放。我們認為CUDA的護城河既淺又窄。”

Gelsinger的這番話確實道出了整個人工智能行業對于Nvidia的CUDA又愛又恨的情緒;一方面,由于有了CUDA生態,人工智能算法的訓練和部署從硬件層角度變得容易,人工智能工程師無需成為芯片專家,也能夠讓人工智能訓練高效地運行在Nvidia的GPU上。而從另一個角度,整個業界也過于依賴CUDA,以至于不少主打人工智能公司都對于CUDA的過度依賴產生了警惕性,這也就是Gelsinger所說的Google、OpenAI等公司都在設法研制自己的相應解決方案(例如OpenAI的Triton)。本文將深入分析CUDA的強勢到底來源于哪里,以及究竟誰能打破CUDA壟斷。

什么是CUDA?

首先,我們先分析一下CUDA的來龍去脈。當我們在談論“CUDA”的時候,我們究竟在談論什么?事實上,我們認為,CUDA包含三個層次。

首先,CUDA是一套編程語言。最初,3D圖像加速卡的主要任務是加速3D圖像的渲染,其用途相當專一。在本世紀初,Nvidia推出了GPU的概念以允許用戶使用圖像加速卡去做通用計算,并且在大約十五年前推出了相應的CUDA編程語言,其主要任務是提供GPU的編程模型,從而實現通用GPU編程。在CUDA編程語言中,Nvidia提供了GPU的各種硬件抽象,例如基于線程的并行計算、內存存取等概念,從而為GPU編程提供了方便。

除了編程語言之外,CUDA的第二層含義是一套高性能編譯系統。在使用CUDA編程之后,還需要把用CUDA語言編寫的程序使用CUDA編譯器針對相應硬件優化并且映射到更底層的硬件指令(對于Nvidia顯卡來說就是PTX)。CUDA的編譯器和GPU硬件的整合效率相當高,因此能編譯出非常高效的底層指令,這也是CUDA的另一個核心組成部分。

最后,CUDA的第三層是含義是Nvidia基于CUDA語言的一系列高性能函數庫,以及人工智能/高性能計算社區基于CUDA語言開發的一系列代碼庫。例如,CUDA的常用高性能函數庫包括用于線性計算的cuBLAS和CUTLASS,用于稀疏矩陣計算的cuSPARSE,用于傅立葉變幻的cuFFT,用于數值求解的cuSOLVER等。這些函數庫的發展至今已經歷經了十余年的努力,其優化幾乎已經做到了極致。另外,人工智能社區也有大量基于CUDA開發的代碼庫,例如Pytorch的默認后端就是CUDA。

CUDA每個層面的護城河

如上分析可知,CUDA其實包含了三個層面:編程語言,編譯器和生態。那么,CUDA這三個層面的護城河究竟在有多高?

首先,從編程語言的角度,事實上一直有OpenCL等社區開源語言試圖去實現類似(甚至更加廣泛的功能;OpenCL針對的不只是GPU編程,還包括了FPGA等異構計算體系)的功能,AMD的ROCm平臺也是試圖做到與CUDA語言等價。從編程語言角度,CUDA并非不可取代。

其次,從編譯器的角度來看,CUDA提供的高性能編譯器確實是一個很高的護城河。編譯器的性能從很大程度上決定了用戶編寫的程序在GPU上執行的效率;或者換句話說,對于人工智能應用來說,一個很直觀的衡量標準就是用戶編寫的人工智能算法,能多大程度上利用GPU的峰值算力?大多數情況下,峰值算力平均利用率不到50%。另外,編譯器的性能還牽扯到了用戶調優的過程。如果用戶是GPU專家,通過在編寫GPU程序時進行調優(例如使用某種特定的方式去編寫語句),也可以很大程度上彌補編譯器的不足(因為編譯器的一個重要功能就是對編寫的程序做優化,那么如果編寫的程序已經比較優化了那么對編譯器優化能力的要求就可以低一些)。

但是,這就牽扯到了用戶的門檻,如果編譯器性能不夠好,需要用戶是專家才能實現高效率的GPU程序,就會大大提高用戶門檻,即只有擁有一支精英GPU編程專家團隊的公司才能充分發揮出GPU的性能;相反如果編譯器性能夠好,那么就可以降低用戶門檻,讓更多公司和個人也可以使用GPU高性能運行算法。

從這個角度來說,經過十多年的積累,CUDA的編譯器(NVCC)已經達到了相當高的水平。最近的另一個新聞也從側面印證了編譯器性能的重要性:AMD在12月初的發布會上宣布新的MI300X平臺在運行Llama2-70B模型的推理任務時,比起Nvidia H100 HGX的性能要強1.4倍;一周后,Nvidia回應稱AMD在編譯測試時并沒有使用合理的設置,在使用正確設置后H100 HGX的性能事實上比MI300X要強1.5倍。由此可見,一個好的編譯器優化對于充分利用GPU的性能可以說是至關重要。

b41a82ae-a4a2-11ee-8b88-92fbcf53809c.png

然而,編譯器的護城河也并不是高不可破。例如,OpenAI的開源Triton編譯器可以同時兼容Nvidia和AMD以及更多平臺,支持把用戶使用Python編寫的程序直接優化編譯到底層硬件指令語言,并且在Nvidia的成熟GPU上實現和CUDA接近的執行效率。如果Triton這樣的開源編譯器獲得成功的話,至少從某種角度上可以省去其他人工智能芯片公司花數年精力去開發自己的編譯器的需求。

第三個層面是生態。目前,CUDA在生態領域可以說是遙遙領先,因為CUDA有著十多年的高性能程序庫的積累,以及基于這些程序庫上面社區開發的各種高性能框架代碼。生態的積累首先需要能提供一個領先的解決方案——如果其他公司也能提供一個高性能的編程語言和編譯器方案的話,自然會有社區去基于它開發代碼,而經過長期不懈的積累之后,生態自然也會趕上。例如,人工智能領域最流行的框架PyTorch從這兩年開始也對于AMD的ROCm提供了支持,這就是生態領域的一個例子。換句話說,只要給足夠的時間和與CUDA語言/編譯器性能接近的方案,生態自然會慢慢趕上。

誰能打破CUDA的護城河

之前我們分析了CUDA從三個層面的護城河,我們可以發現,Nvidia的CUDA從三個層面分別來看,編譯器和生態的護城河比較高,但也不是不可超越。我們看到,軟件科技公司之間正在試圖超越這條護城河,例如OpenAI的Triton編譯器能提供幾乎比肩CUDA的性能,而人工智能編程框架PyTorch的最新版本已經在后端集成了Triton,可望在Nvidia已經推出的成熟GPU上能實現很高的性能。

然而,Nvidia CUDA最強的護城河事實上在于軟件-芯片協同設計。如前所述,在Nvidia的GPU推出一段時間之后(例如半年或一年),第三方的軟件公司的方案(例如OpenAI的Triton)在研究透徹這款GPU之后,可以讓自己的方案做到比肩CUDA的水平。這意味著兩點:

首先,第三方軟件公司開發編譯器去嘗試匹配CUDA的性能永遠是一個追趕的過程,Nvidia發布新的GPU和相應CUDA版本之后,需要半年到一年的時間才能實現性能基本匹配,但是基本難以到達Nvidia新GPU發布就立刻實現性能匹配甚至領先。

其次,芯片公司如果被動等待第三方軟件公司的編譯器去適配自己的人工智能加速硬件以追趕Nvidia的話,永遠無法打破Nvidia CUDA的領先地位。原因是,第三方軟件公司適配新的人工智能加速硬件需要時間;而在一年后等到第三方軟件公司的方案達到接近CUDA的水平的時候,Nvidia已經發布下一代GPU了。這就陷入了永遠在追趕過程中的陷阱,難以打破CUDA護城河并實現領先。

因此,能真正打破CUDA護城河的,必須是有芯片-軟件協同設計能力的團隊,而不僅僅是一個軟件公司。這個團隊可以是一家擁有強大軟件能力的芯片公司(例如,Nvidia就是這樣的一個擁有強大芯片-軟件協同設計能得芯片公司的例子),或者是芯片和科技公司的結合。只有在芯片設計過程中就開始編譯器和軟件生態的適配,才能夠在芯片發布的初期就能推出芯片性能和軟件性能同時都比肩Nvidia GPU +CUDA的產品,從而真正打破CUDA的護城河。

如何在芯片設計過程中就實現軟硬件協同設計?事實上,編譯器的設計是基于一種編程模型,把硬件抽象為一些不同的層次(例如內部并行計算,內存存取等等),并且進一步根據這些硬件抽象去構建性能模型,來實現性能的預測和優化。從芯片設計的角度,需要能充分理解編譯器層面的這些硬件抽象和性能模型并不會百分百準確,因此如何設計一個好的芯片架構讓編譯器能夠較為容易地去優化程序就很重要。而從編譯器的角度,如前所述每一款芯片的編程模型和硬件抽象層都會略有不同,因此需要在芯片設計周期中就介入開始編譯器的優化和硬件建模。兩者相結合,就能實現在芯片推出時就同時有很強的芯片理論性能和高度優化的編程語言/編譯器,最終實現整體解決方案能和Nvidia的GPU+CUDA做有力的競爭。

從這個角度來看,Google的TPU+XLA就是一個滿足之前所屬芯片-軟件協同設計的案例。Google的自研TPU過程中和XLA編譯器通過軟硬件結合設計實現整體高性能方案(這也是TPU在MLPerf benchmark上和Nvidia的方案性能接近甚至領先的重要原因)。雖然TPU并不對第三方銷售因此這個方案并不會完全打破Nvidia CUDA的護城河,但是它至少提供了一個打破Nvidia CUDA護城河的技術方向。從另一個方面,AMD和Intel等芯片公司在編譯器領域的方案目前還有待加強,但是通過和OpenAI等科技公司合作,通過在下一代AI產品的設計過程中就和Triton這樣的領先編譯器方案協同設計,可望能在未來追趕Nvidia GPU + CUDA的性能;而在性能接近之后,生態的培養就只是一個時間問題了。

綜上,我們認為,CUDA雖然是一個軟件生態,但是如果想要打破CUDA的護城河,需要的是軟硬件協同設計。








審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • CUDA
    +關注

    關注

    0

    文章

    122

    瀏覽量

    13998
  • GPU芯片
    +關注

    關注

    1

    文章

    304

    瀏覽量

    6082
  • 人工智能算法

    關注

    0

    文章

    62

    瀏覽量

    5434
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13669
  • OpenAI
    +關注

    關注

    9

    文章

    1196

    瀏覽量

    8223

原文標題:誰能挑戰CUDA?

文章出處:【微信號:IC大家談,微信公眾號:IC大家談】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    使用NVIDIA CUDA-X庫加速科學和工程發展

    NVIDIA GTC 全球 AI 大會上宣布,開發者現在可以通過 CUDA-X 與新一代超級芯片架構的協同,實現 CPU 和 GPU 資源間深度自動化整合與調度,相較于傳統加速計算架構,該技術可使計算工程工具運行速度提升至原來的 11 倍,計算規模增加至 5 倍。
    的頭像 發表于 03-25 15:11 ?426次閱讀

    借助PerfXCloud和dify開發代碼轉換器

    隨著深度學習與高性能計算的迅速發展,GPU計算的廣泛應用已成為推動技術革新的一股重要力量。對于GPU編程語言的選擇,CUDA和HIP是目前最為流行的兩種選擇。CUDA是由NVIDIA推出的編程平臺
    的頭像 發表于 02-25 09:36 ?772次閱讀
    借助PerfXCloud和dify開發代碼轉換器

    FacenetPytorch人臉識別方案--基于米爾全志T527開發板

    https://github.com/pytorch/pytorch # 進入 PyTorch 目錄 cd pytorch # 安裝 PyTorch (需要根據你的需求選擇 CUDA 版本,如果不需要
    發表于 11-28 15:57

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

    方式可以提高處理器的吞吐量。并行計算模式(而非圖形模式下)GPGPU的流水線是針對線程束進行管理的,也就是NVIDIA所說的 CUDA環境下的 warp 或者AMD 所說的 OpenCL 環境下
    發表于 11-03 12:55

    有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

    有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理
    發表于 10-20 09:14

    怎么在TMDSEVM6678: 6678自帶的FFT接口和CUDA提供CUFFT函數庫選擇?

    請教一下gpgpu上包括4個Riscv cpu和一個DPU, 沒有6678,要替換原來信號處理用的6678,該怎么在6678自帶的FFT接口和CUDA提供CUFFT函數庫選擇?
    發表于 09-27 07:20

    打破英偉達CUDA壁壘?AMD顯卡現在也能無縫適配CUDA

    電子發燒友網報道(文/梁浩斌)一直以來,圍繞CUDA打造的軟件生態,是英偉達在GPU領域最大的護城河,尤其是隨著目前AI領域的發展加速,市場火爆,英偉達GPU+CUDA的開發生態則更加穩固,AMD
    的頭像 發表于 07-19 00:16 ?5536次閱讀

    英國公司實現英偉達CUDA軟件在AMD GPU上的無縫運行

    7月18日最新資訊,英國創新科技企業Spectral Compute震撼發布了其革命性GPGPU編程工具包——“SCALE”,該工具包實現了英偉達CUDA軟件在AMD GPU上的無縫遷移與運行,標志著在GPU計算領域,NVIDIA長期以來的市場壟斷地位或將迎來重大挑戰。
    的頭像 發表于 07-18 14:40 ?896次閱讀

    DongshanPI-AICT全志V853開發板搭建YOLOV5-V6.0環境

    Conda搭建YOLOV5-V6.0環境 0.前言 ? 本章節主要記錄如何搭建yolov5-v6.0環境,并支持CUDA加速。此文章的硬件要求如下,如果您的電腦沒有顯卡設備,這篇文章無法給您當做
    發表于 07-12 09:59

    中科馭數HADOS 3.0:以四大架構革新,全面擁抱敏捷開發理念,引領DPU應用生態

    一家成功的大算力芯片公司,其核心壁壘必須是軟硬兼備的,既要有芯片架構的強大技術壁壘,更要有持久投入的、生態兼容完備的軟件護城河。HADOS,就是中科馭數的軟件護城河
    的頭像 發表于 07-09 14:26 ?548次閱讀
    中科馭數HADOS 3.0:以四大架構革新,全面擁抱敏捷開發理念,引領DPU應用生態

    軟件生態上超越CUDA,究竟有多難?

    神壇的,還是圍繞CUDA打造的一系列軟件生態。 ? 英偉達——CUDA的絕對統治 ? 相信對GPU有過一定了解的都知道,英偉達的最大護城河就是CUDA
    的頭像 發表于 06-20 00:09 ?4111次閱讀

    傲睿科技用MEMS噴墨打印芯片助力國產打印機新品上市

    打印行業護城河寬、專利技術壁壘高,美國和日本企業掌控著核心技術,形成行業壟斷。
    的頭像 發表于 05-27 10:05 ?1003次閱讀

    借助NVIDIA Aerial CUDA增強5G/6G的DU性能和工作負載整合

    Aerial CUDA 加速無線接入網 (RAN)可加速電信工作負載,使用 CPU、GPU 和 DPU 在云原生加速計算平臺上提供更高水平的頻譜效率 (SE)。
    的頭像 發表于 05-24 11:10 ?863次閱讀
    借助NVIDIA Aerial <b class='flag-5'>CUDA</b>增強5G/6G的DU性能和工作負載整合

    英偉達CUDA-Q平臺推動全球量子計算研究

    英偉達今日公布了其重要戰略決策,即采用開源的CUDA-Q平臺,旨在推動德國、日本和波蘭等國家超運中心在量子計算領域的創新研究。CUDA-Q作為英偉達推出的一款開源平臺,不僅與QPU無關,還實現了量子
    的頭像 發表于 05-14 11:45 ?840次閱讀

    NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

    —— NVIDIA 于今日宣布將通過開源的 NVIDIA CUDA-Q? 量子計算平臺,助力全球各地的國家級超算中心加快量子計算的研究發展。 ? 德國、日本和波蘭的超算中心將使用該平臺來賦能他們由 NVIDIA
    發表于 05-13 15:21 ?292次閱讀
    NVIDIA 通過 <b class='flag-5'>CUDA</b>-Q 平臺為全球各地的量子計算中心提供加速

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品
    主站蜘蛛池模板: 秋霞成人午夜鲁丝一区二区三区 | 一区二区三区国产亚洲网站 | 欧美三级在线完整版免费 | 乡村教师电影完整版在线观看 | 最新中文字幕在线视频 | 欧美特黄99久久毛片免费 | 又硬又粗又大一区二区三区视频 | 国产免费人视频在线观看免费 | 柠檬福利精品视频导航 | 神马电影院午 夜理论 | 中文无码有码亚洲 欧美 | 亚洲国产中文在线视频免费 | 肉奴隷 赤坂丽在线播放 | 男女后进式猛烈xx00动态图片 | 免费看美女的网站 | 国产亚洲日韩另类在线观看 | 亚洲色噜噜狠狠网站 | 又爽又黄又粗又大免费视频 | bt成人社区 | 国产人妻人伦精品久久无码 | 伦理片飘花手机在线 | 2020美女视频黄频大全视频 | 亲胸揉胸膜下刺激视频网站APP | 久久亚洲国产成人影院 | 蜜臀亚洲AV永久无码精品老司机 | 嗯 用力啊 嗯 c我 啊哈老师 | qvod 艺术片| 久久综合狠狠综合狠狠 | 小柔的性放荡羞辱日记 | 小草观看免费高清视频 | 中文字幕乱码亚洲无线三区 | 无码日韩人妻精品久久蜜桃入口 | 青草精品国产福利在线视频 | 久久免费观看视频 | 亚洲VA欧美VA天堂V国产综合 | 久久无码人妻中文国产 | 亚洲 欧美 综合 高清 在线 | 草神被爆漫画羞羞漫画 | 亚洲国产精品一区二区第一页 | 亚洲精品久久久久久久蜜臀老牛 | 精品亚洲视频在线观看 |