中日韩一区二区三区,亚洲综合图色,一个人www视频在线观看

存儲與GPU性能皆已成倍增長，IO表現為何遲遲不見好轉？

伴隨著HPC、自動駕駛、深度學習和VR/AR需求的不斷增加，IO性能也在逐步凸顯瓶頸，尤其是GPU與存儲之間的讀寫。處理器速度已經從KHz進化至了GHz，VRAM從KB進化至了GB，IO速度也從KB/s進化至了GB/s，然而GB/s的大幅度改善從直觀角度來看依然像是MB/s。

比如在有線連接的VR應用中，圖形需要經過電腦進行處理，再經有線傳輸顯示在VR屏幕上，這就引發了高延遲和長讀取時間等問題。這不禁讓人開始遐想，在CPU、GPU和存儲都已經革新換代的情況下，我們是否真正有效地應用了硬件性能？為此微軟和英偉達都提出了直接存儲的概念來改善IO的現狀。

微軟：Windows上的DirectStorage

微軟在不久前的Windows 11發布會上重點提到了DirectStorage技術，這是一個最初為主機設計的DirectX API，如今微軟也將把這一技術帶到PC上。

在當前NVMe SSD和PCIe技術的演進下，存儲帶寬遠超舊式的硬盤存儲技術，過去10MB每秒的速度已經達到數GB每秒。但PC上的圖形工作量也在逐步進化，數據量的增加對于讀取提出了更高的要求。過去大量數據的讀取只需要少量的IO請求，但如今的圖形渲染會將材質等資源分成小塊，只有在場景提出要求時載入所需的部分，如此一來雖然提高了效率，卻引入了更多IO請求。

當前的GPU資源讀取流程 / 微軟

而目前的存儲API并沒有對大量IO請求作出優化，因此拖累了NVMe，使得讀寫瓶頸愈發明顯。即便采用高端的PC硬件，也無法飽和利用存儲帶寬優勢。除此之外，這些數據往往需要經過壓縮傳輸下一個環節，傳入內存后，還要CPU進行一部分解壓工作，最后再傳入GPU顯存里，這樣一來每個節點都存在效率損失。

而DirectStorage采用了全新的路徑，從存儲讀取的數據傳給內存后，直接傳給GPU顯存。而GPU對于這些數據的解壓速度遠快于CPU，所以極大地優化了IO性能。

英偉達：RTX IO和Magnum IO GPUDirect Storage

英偉達在RTX 30系列顯卡上引入了RTX IO，面向消費市場，提升游戲場景下的讀取速度。英偉達稱RTX IO將與微軟的DirectStorage結合，與傳統硬盤下的存儲API相比，可將IO性能提高百倍。過去需要數十個CPU內核的工作全部交由RTX GPU來處理。

值得一提的是，英偉達的RTX IO雖然也用到了微軟的DirectStorage，但該技術并沒有將數據傳輸到內存，而是直接由SSD轉向GPU。微軟一名圖形開發者在GSL 2021大會上表示，未來DirectStorage的目標也是繞過系統內存。

GDS技術 / 英偉達

除了消費市場外，英偉達在HPC市場也推出了對應的直接存儲技術，Magnum IO GPUDirect Storage（GDS）。GDS技術同樣是一個繞過CPU的技術，與消費級GPU不同，HPC場景下往往要用到多塊GPU，如此一來受IO延遲和CPU的影響更大。GDS在本地存儲與GPU顯存之間建立直接的數據通道，消除了CPU引入的延遲和讀寫瓶頸。

GDS與CPU傳輸至GPU讀取性能對比 / 英偉達

在運用GDS后，帶寬提升達到1.5倍，與傳統CPU回彈緩沖的數據路徑相比，CPU利用率也有2.8倍的提升。

目前英偉達已經將這一技術加入到其HGX AI超算中，DDN、VAST和WEKA三家公司已經開始了相關產品的量產，而IBM、美光等五家廠商也在積極引入這一技術。三星、鎧俠、西數和戴爾等廠商也開始了GDS的早期集成與認證計劃。

小結

直接存儲技術進一步放大了GPU廠商與存儲廠商的優勢，目前HPC市場前景巨大，英偉達在相關業務上的盈利已經讓其看到了商機。不僅是GPU，英偉達采用Arm架構的Grace CPU同樣引入了NVLink這樣的數據傳輸改善方案。在這樣的性能改善下，即便存儲方案不同，英偉達的GPU也很可能成為HPC應用的首選。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴