在神經網絡和機器學習技術的推動下,特別是2016年谷歌的AlphaGo在多次與人類頂尖圍棋棋手的對戰中大獲全勝后,給全世界做了一次人工智能(AI)科普,人工智能的新一波發展浪潮開始了。
“計算技術正在蓬勃發展,推動這枚火箭的引擎是加速計算,而燃料則是 AI。” NVIDIA 創始人兼首席執行官黃仁勛在2022秋季GTC 大會主題演講中表示。也就是說AI加速計算時代已經悄然來臨。
近10年來,數據量和數據處理方式都發生了很大的改變。大量的數據不再是人類事件生成,而是各種類型的傳感器和設備所生成,數據量正在呈指數級在往上增長。比如說,智能手表會收集用戶運動健身和健康狀況相關的詳細數據,自動駕駛汽車在行駛過程中會不斷收集周圍環境的信息,據統計一輛汽車一小時就可以生成5TB的數據,未來隨著自動駕駛汽車數量的持續增長,將會產生龐大的數據量。
隨著數據量的爆炸式增長,人們開始使用AI來分析數據,因為AI不僅能夠分辨出語音和視頻模式,強化學習技術,還能夠從大量的可能性中識別出最佳結果,從而為使用者提供最有價值的分析。而NVIDIA在AI加速計算領域這幾年一路狂奔,取得亮眼成績。
談到原因,黃仁勛認為這與NVIDIA這些年來持續推行“全堆棧計算”策略是分不開的。“為了在加速計算領域取得成功,我們不再只是做別人曾經做的事情,而是把它整合成一家縱向一體化的公司。”在他看來,“在AI加速計算領域,如果不垂直整合,就不會成功。因為沒有人會專門為你寫操作系統,在云端、超級計算和企業中,也沒有人會開發你的分布式操作系統,而沒有完整的堆棧,用戶就無法使用你的平臺,所以你別無選擇,只能自己動手。”
黃仁勛認為,客戶要購買的不是NVIDIA的芯片,而是NVIDIA的計算堆棧。他同時強調,NVIDIA的全堆棧,主要包括四大平臺,即NVIDIA RTX、NVIDIA HPC、NVIDIA AI和NVIDIA Omniverse。
NVIDIA RTX:推出全新架構RTX 40系列GPU
NVIDIA RTX是NVIDIA在Siggraph 2018上推出的全新GPU架構,通過兩個全新處理器來擴展可編程著色器。RT Core 用于加速實時光線追蹤,Tensor Core 用于處理矩陣運算,這是深度學習的核心。
在2022 秋季 GTC 大會上,NVIDIA宣布推出其第3代RTX架構------Ada Lovelace,這代 RTX 以數學家 Ada Lovelace 的名字命名,她被公認為世界上第一位計算機程序員。
圖:NVIDIA Racer RTX 是利用 GeForce RTX 40 系列 GPU 和 NVIDIA DLSS 3 創建未來游戲內容的例子
同時,NVIDIA還推出了基于Ada Lovelace架構的RTX 40系列GPU,該系列GPU采用了TSMC的4N工藝,可集成760億個晶體管和超過16000個CUDA核心。其主要技術創新包括:
- 流式多處理器具有高達83 TFLOPS 的著色器能力,吞吐量超過上一代產品2倍。
- 第三代RT Core的有效光線追蹤計算能力達到191 TFLOPS,是上一代產品2.8倍。
- 第四代Tensor Core具有高達1.32 Petaflops 的 FP8 張量處理性能,超過上一代使用 FP8 加速性能的5倍。
- 著色器執行重排序(SER)通過即時重新安排著色器負載來提高執行效率,從而更好地利用 GPU 資源。作為與 CPU 的亂序執行一樣的重大創新,SER 為光線追蹤帶來最高可達3倍的性能提升,整體游戲性能提升可高達25%。
- Ada光流加速器帶來2倍的性能提升,使 DLSS 3 能夠預測場景中的運動,使神經網絡能夠在保持圖像質量的同時提高幀率。
- 架構上的改進,與 TSMC 4N 定制工藝技術緊密結合,實現了高達2倍的性能功耗比飛躍。
- 雙NVIDIA編碼器(NVENC)將輸出時間至多縮短一半,并支持 AV1。OBS、Blackmagic Design DaVinci Resolve、Discord 以及更多的公司都已在采用 NVENC AV1 編碼器。
在產品方面,NVIDIA推出了首款基于Ada Lovelace架構的工作站顯卡NVIDIA RTX 6000,該工作站顯卡具有142個第三代RT Core、568個第四代Tensor Core、18,176個CUDA核心,以及48GB顯存,可為工程師、設計師和科學家提供助力,滿足在虛擬世界中構建世界所需的苛刻的內容創建、渲染、人工智能和模擬工作負載的需求。
圖:NVIDIA RTX 6000具體參數(來源:NVIDIA官網)
據NVIDIA介紹,與其前代產品相比,全新的RTX 6000可在企業環境中提供2~4倍的性能提升,包括最多2倍的光追性能、AI訓練性能、及單精度浮點性能等。NVIDIA還為其配備了48GB支持ECC的GDDR6顯存,以支持最大體積的3D模型渲染或AI計算。此外,該RTX 6000采用了PCIe 4×16接口,整卡最大功耗為300W。
值得注意的是,全新的RTX 6000的開始出貨時間應該是今年12月。
NVIDIA HPC:具有AI支持的全堆棧科學計算
NVIDIA HPC是NVIDIA的科學計算堆棧,在AI的支持下,其GPU、CPU、DPU和軟件將共同幫助數據中心擴大規模,為量子計算、分子動力學、流體動力學、氣候研究等科學研究做出支持。
NVIDIA HPC包括了HOLOSCAN(邊緣計算和人工智能平臺可捕獲和分析來自醫療設備和科學儀器的數據)、MODULUS、CUQANTUM(量子計算)等數據中心工作負載和技術。
具體來看,針對HPC的HOLOSCAN SDK可以幫助科學家和研究人員加速科學儀器應用的相關發現。該SDK引入了用于創建管道流邊緣的高性能框架,允許用戶用C++,Python和jax開發應用程序。而且后續還會推出更多的功能。
NVIDIA Modulus是用于開發基于物理學的機器學習神經網絡模型的平臺。它允許用戶以治理偏微分方程或PDES的形式融合物理學的力量。用數據建立高保真的參數化代用模型,具有近乎實時的延時。它可以支持處理AI驅動的物理問題以及復雜的非線性多物理系統設計數字孿生模型等工作。而且,它在提供相同準確性的同時,比單獨的模擬快了110萬倍。
在量子計算方面,已經有25個國家級的量子計劃在運作了,過去12個月有超過2100篇量子計算相關的文章得到了發布。而且,目前已經出現了超過250家量子計算初創企業。NVIDIA也在2022 秋季 GTC 大會上推出了由優化庫和工具優化構建的SDK------cuQuantum和混合量子經典應用開發平臺QODA。
其中,cuQuantum可用于量子電路模擬開發,借助cuQuantum,一臺32個節點的DGX Pod,可以模擬一臺40量子位的量子計算機。目前,cuQuantum得到廣泛運用,包括AWS、Google、IBM、Oracle以及很多初創公司和超算中心都在采用該SDK,比如Oracle正在為OCI云構建量子模擬虛擬機;AWS將cuQuantum集成到其Braket量子計算服務中,實現了900倍的加速和3.5倍的成本縮減。
而QODA是一個開放的,與處理器無關的量子平臺,適用于混合量子加速計算,它為研究人員提供了量子加速計算的編程模型。
NVIDIA AI:本質上是現代AI的操作系統
在黃仁勛看來,NVIDIA AI本質上是現代AI的操作系統,它從數據采集、數據處理,發展到深度學習,再到如今的的圖表分析和圖表學習系統,再到推論工具Triton,不斷在向前演化。“所以這個端到端平臺是NVIDIA人工智能的一部分。如果你在任何地方做機器學習或任何類型的人工智能模型,你都可以使用NVIDIA AI。”他表示。
據他介紹,NVIDIA通過550個SDK和AI模型為約3000個應用提供加速。在過去12個月中對超過100個SDK進行了更新,并推出了25個新SDK,且每次更新都會提高計算機組合的性能和吞吐量。
下面看看幾個比較典型的NVIDIA AI應用:
Forecast net:以前所未有的需求和準確性預測極端天氣。Forecast net在不到兩秒鐘的時間內就能生成一個星期的預報,比歐洲中程天氣預報中心的綜合預報系統(一種最先進的數值天氣預報模型)快了幾個數量級。而且它的準確度相當或更好。
Morpheus:它是AI網絡安全框架,旨在使整個安全數據推斷更容易、更快、更強大。它由許多模塊組成,可以以各種方式連接,允許開發人員創建整個潛能。在輸入方面,Morpheus與數據無關。它提供了以下預先訓練好的模型,以簡化實施并加快它們的模型性能。
1.數字指紋識別——識別憑證使用行為的變化,將其歸類為人類與機器的互動和機器與機器的互動;
2.釣魚網站檢測——分析整個原始電子郵件,將其分類為掛垃圾郵件或釣魚網站;
3.泄露的敏感數據分類——發現泄露的憑證鑰匙、密碼、信用卡號碼、銀行賬戶號碼等的分類。
4.異常行為分析檢測——以檢測像加密惡意軟件這樣的東西;
5.基于圖形神經網絡的欺詐檢測——幫助你用以前所需的一小部分標記數據獲得高準確率的結果。
Triton推理服務器:Triton 是一款開源的推理服務軟件,可助力團隊從任何框架、本地存儲或從任何基于 GPU 或 CPU 的基礎架構、云、數據中心或邊緣的 Google Cloud 平臺或 AWS S3 中部署經過訓練的 AI 模型。據悉,Triton的下載量已超過300萬次,比去年增加了300%。Triton可以在所有主要公有云中使用,并可集成到領先的MLOps平臺中。目前已受到超過35000家公司的青睞。
cuOPT:它是建立在RAPIDS之上的最新庫之一。cuOPT是一個AI物流軟件應用程序,可以實現近乎實時的路由優化。與最先進的CPU解決方案相比,它的速度提高了100倍以上,在300個humberger基準問題中的190個問題上的準確度創下了世界紀錄,并且可以擴展到數萬個地點,cuOPT極大地方便了物流和運籌學開發人員。
NVIDIA Omniverse:構建和運行元宇宙應用的平臺
Omniverse是一個實時的大型3D數據庫,基于USD構建的網絡,連接3D世界。同時它也是是一個計算平臺,該平臺適用于從產品設計和造型,到工程策劃、制造、營銷和運營的整個產品生命周期。
在2022秋季GTC 大會上,NVIDIA宣布了Omniverse的重大更新:
- 支持 Ada Lovelace GPU,在光線追蹤和大型場景性能方面實現巨大飛躍;
- 基于 GAN 和擴散模型的新型神經渲染工具;
- OmniGraph 是一個圖形執行引擎,可通過程序化的方式控制行為、動作和行動;
- Omniverse Physics 的重大更新,用來處理復雜的多連接部件對象的運動情況;
- 全新的 Cloud XR,支持在 VR 中實現 Ada 強大的光線追蹤功能;
- 首個用于合成數據生成和數字孿生模擬的 SimReady 素材庫;
- Replicator 是備受青睞的 Omniverse 應用之一,用來生成合成數據,從而訓練自動駕駛汽車、機器人和各種計算機視覺模型。
- 新的 Omniverse JT 連接器 則是一款大型應用,Siemens 發明了 JT,這是產品生命周期管理的行業標準語言,也是 NX、Creo、Catia 和 Inventor 等 CAD 系統的互操作格式,JT 連接器使得工業和制造業可以運用 Omniverse。目前,Omniverse已擁有150個連接器,這些都是全球市值 100 萬億美元的產業所使用的工具和平臺。這些連接器將 Omniverse 的應用范圍拓展到各種公司,覆蓋零售、交通、電信、制造、媒體和娛樂、消費品和奢侈品,以及供應鏈和物流等大型行業領域。
其實,Omniverse 是一個新的計算平臺,需要采用新的計算系統,Omniverse 計算平臺由三部分構成:RTX 計算機(供創作者、設計師和工程師使用)、OVX 服務器(用來托管與 Nucleus 數據庫的連接并運行虛擬世界模擬),以及第三部分:NVIDIA GDN(進入 Omniverse 的門戶)。
通過 GeForce Now,NVIDIA構建了一個全球圖形交付網絡(即 GDN),該網絡覆蓋 100 個地區,為之提供響應靈敏的超快 RTX 圖形內容交付網絡 (CDN)。通過 NVIDIA RTX PC、云端的 NVIDIA GPU 和 NVIDIA GDN,NVIDIA打造了一個覆蓋全球的 Omniverse 計算平臺。
在今年9月20日,NVIDIA宣布推出第二代NVIDIA OVX,該系統基于Ada Lovelace GPU 架構的 NVIDIA? L40 GPU,能夠為構建復雜的工業數字孿生提供強大的算力和性能支持。
L40 GPU 包含第三代 RT Core 和第四代 Tensor Core,能夠為在 OVX 系統上運行的 Omniverse 工作負載提供強大功能,包括加速的光線追蹤和路徑追蹤材質渲染、物理級精確的模擬以及逼真的 3D 合成數據生成。L40 也會在主要 OEM 廠商的 NVIDIA 認證系統服務器中提供,以驅動數據中心的 RTX 工作負載。
具體規格方面,每個OVX 服務器節點帶有8個NVIDIA L40 GPU和3個ConnectX-7 網卡,可提供100/200/400G網絡速率。如果 Omniverse工作負載對性能和規模提出更高要求,這些服務器可以通過 NVIDIA Spectrum?-3以太網平臺部署在NVIDIA OVX POD和 SuperPOD配置上。
黃仁勛認為,Omniverse是用來構建和運行元宇宙應用的平臺,無論是數字世界和現實世界在何處教會,Omniverse都能發揮作用。此外,Omniverse還有一項重要的用途就是機器人開發,而機器人將會是AI的新一波浪潮。
結語
此外, NVIDIA在2022秋季GTC 大會上還帶來了新的邊緣AI計算平臺IGX平臺,IGX平臺由NVIDIA IGX Orin超級計算機驅動,能更簡便的為制造、物流、醫療等安全敏感行業帶來了安全的工作環境;史詩級的超級芯片DRIVE Thor(雷神),這款SoC將于2025年上市,其AI性能高達2000TOPS;以及Jetson Orin Nano,它可運行NVIDIA Isaac機器人堆棧,并具有ROS 2 GPU加速框架,速度比之前大受歡迎的Jetson Nano快80倍等產品更新。
-
機器人
+關注
關注
211文章
28525瀏覽量
207576 -
虛擬現實
+關注
關注
15文章
2289瀏覽量
95570 -
數據中心
+關注
關注
16文章
4816瀏覽量
72229 -
AI
+關注
關注
87文章
31158瀏覽量
269525 -
人工智能
+關注
關注
1792文章
47445瀏覽量
239053
發布評論請先 登錄
相關推薦
評論