今年的 GTC China 黃仁勛沒有露面,但黃式定律無處不在。
從翻倍提高 TensorCore 計算效能的新技術,到下一代光通信技術,再到一行代碼為所有模型提供 GPU 加速的軟件工具,為了讓未來的 AI 算力每年能夠提升一倍,英偉達找到了不少新方向。
在科技領域里,很多人都知道摩爾定律:前英特爾 CEO 大衛·豪斯(David House)曾提出,人類制造出的芯片,每 18 個月計算效率就會提高一倍。這一「規律」在過去長達五十年間一直被實踐驗證,但在最近五六年中,由于晶體管尺寸越來越小,制程陷入瓶頸,摩爾定律逐漸失效。
而另一方面,人類對于計算機的算力需求是無限的,人工智能技術的發展更是加大了這種需求。近十年來,GPU正在讓人工智能算法的性能每年都在成倍提升,英偉達的研究人員通過架構的提升,正在不斷尋找進一步加快AI推理速度的芯片。
如果我們還需要在未來的一段時間里使用硅芯片,那么摩爾定律之后,我們還可以仰賴「黃氏定律」保持AI技術的發展速度。
在芯片本身無法快速提升的情況下,英偉達把目光轉向了計算架構的很多其他方面,Bill Dally 認為「這些方向其中的任何一個如果有效,都可以在接下來幾代的產品中幫助我們延續性能每年提升一倍的目標。」
如果可以通過一個全局控制器,把數據從內存不同的部分移動到不同計算單元以執行計算,并針對神經網絡計算的特性在數據流中加入一個存儲層,便可以解除瓶頸,將大部分能量用于計算。在特定的單元上,英偉達尚未發布的硬件產品可以實現每瓦 100 Teraops 的推理能力,而在 2019 年達到的效率還只有 29 Teraops。
看來下一代的 Tensor Core 性能又要有巨大的提升了。
其次是多卡的數據傳輸,英偉達的 GPU 通過 NVlink 和 NVswitch 互相連接,然而基于電信號的方式目前已經接近極限了,人們預估,想要繼續讓 NVLink 中信號傳輸的帶寬每代提升一倍,將變得極其困難。目前英偉達能夠實現的數字是每線對 50Gb/s,可預見的未來大約可以實現到 100-200Gb/s。英偉達也在和英特爾等科技巨頭一樣思考如何盡快把基于光學的通信技術應用于實踐。
在英偉達的設計中,DGX 卡縱置排列,右側為光源,可為光線提供多種不同波長的光線,光學引擎以極高的數據速率把光轉換為信號。每根光纖都可以同時傳輸不同波長的光,而每種波長的光都可以用 25-50Gb/s 的速度傳輸信號。這樣一來,總數據速率將為 400Gb/s,而每根光纖的傳輸速率「保守估計」就可以達到數個 Tb/s,而且能耗還要比電信號要小。英偉達的研究團隊正在與哥倫比亞大學的研究人員密切合作,探討如何利用電信供應商在其核心網絡中所采用的技術,通過一條光纖來傳輸數十路信號——有了光通信,僅需一條 NVLink 就可以連接規模更大的系統。
除了更大的吞吐量,光鏈路也有助于打造更為密集型的系統。Dally 舉例展示了一個未來將搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。
除了硬件方面的革新,還有軟件。今天有很多應用都在被 GPU 加速,遠超英偉達開發者們更新 CUDA 程序的速度,人們急需一種簡化的編程方式。NVIDIA 的研究人員開發了全新編程系統原型 Legate。開發者借助 Legate,即可在任何規模的系統上,運行針對單一 GPU 編寫的程序——甚至適用于諸如 Selene 等搭載數千個 GPU 的巨型超級計算機。
對于大多數人來說,使用 Legate 我們就可以無需更改代碼即讓 Python 程序無感運行在從 Jetson Nano 到 DGX SuperPOD 等所有包含英偉達 cuda 核心的設備上。開發者所做的是基于原始的 Python 代碼,將原本的「import NumPy as NP」更改為「import legate.numpy as NP」就可以了。隨后 Legate 庫會開始運行,自動完成之后的操作。
它的運行速率有多快呢?從上表中可以看到,Legate 的處理速度不僅快于目前效率最高的庫,同時在并行化時也能盡量保持住自己的優勢。
英偉達也分享了目前國內合作伙伴使用新一代芯片的情況:阿里云、百度智能云、滴滴云、騰訊云的大型數據中心正在遷移至基于英偉達 Ampere 架構的平臺。圖像識別、語音識別,以及包括計算流體動力學、計算金融學、分子動力學在內的 GPU 加速高性能計算場景的快速增長,催生了更多對云實例的需求。
編輯:hfy
-
gpu
+關注
關注
28文章
4760瀏覽量
129131 -
計算機
+關注
關注
19文章
7523瀏覽量
88315 -
AI
+關注
關注
87文章
31262瀏覽量
269627 -
英偉達
+關注
關注
22文章
3815瀏覽量
91492
發布評論請先 登錄
相關推薦
評論