色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用RAPIDS在NVIDIA GPU上分析腦細胞基準

星星科技指導員 ? 來源:NVIDIA ? 作者:Corey Nolet ? 2022-04-18 16:34 ? 次閱讀

單細胞基因組學研究繼續推進疾病預防藥物的發現。例如,它在為當前的新冠肺炎大流行開發治療、識別易受感染的細胞以及揭示受感染患者免疫系統的變化方面起著關鍵作用。然而,隨著大規模單細胞數據集可用性的不斷提高,計算效率的低下明顯影響了科學研究的速度。將這些計算瓶頸轉移到 GPU 已經證明了有趣的結果。

在最近的一篇博客文章中, NVIDIA 對 100 萬個小鼠腦細胞進行了基準分析,這些腦細胞通過 10 倍基因組學測序。結果表明,在 GCP CPU 實例上運行端到端工作流需要三個多小時,而在單個 NVIDIA V100 GPU 上處理整個數據集只需 11 分鐘。此外,在 GCP GPU 實例上運行 RAPIDS 分析的成本也比 CPU 版本低 3 倍。此處閱讀博客。

按照Jupyter 筆記本對該數據集進行 RAPIDS 分析。要運行筆記本,文件rapids_scanpy_funcs.py和utils.py必須與筆記本位于同一文件夾中。我們提供了第二個筆記本,其中包含 CPU 版本的分析here。在與 Google Dataproc 團隊的合作下,我們構建了一個入門指南,以幫助開發人員快速運行這個轉錄組學用例。最后,看看這個 NVIDIA 和谷歌云共同撰寫博客文章,它展示了工作的影響。

對 GPU 進行單細胞 RNA 分析

執行單細胞分析的典型工作流程通常從一個矩陣開始,該矩陣映射每個細胞中測量的每個基因腳本的計數。執行預處理步驟以濾除噪聲,并對數據進行歸一化以獲得在數據集的每個單獨單元中測量的每個基因的表達。在這一步中,機器學習也常用于糾正數據收集中不需要的偽影?;虻臄盗客ǔO喈敶?,這會產生許多不同的變異,并在計算細胞之間的相似性時增加很多噪音。在識別和可視化具有相似基因表達的細胞簇之前,特征選擇和降維可以減少這種噪聲。這些細胞簇的轉錄表達也可以進行比較,以了解為什么不同類型的細胞行為和反應不同。

pYYBAGJdIo2AKRF-AACorE0hJv8584.png

圖 1 :顯示單細胞 RNA 測序數據分析步驟的管道。從每個細胞中的基因活性矩陣開始, RAPIDS 文庫可用于將矩陣轉換為基因表達,對細胞進行聚類和布局以供可視化,并幫助分析具有不同活性的基因。

該分析證明了使用RAPIDS加速使用單個 GPU 分析 100 萬個細胞的單細胞 RNA 序列數據。然而,實驗只處理了前 100 萬個細胞,而不是整個 130 萬個細胞。因此,在單細胞 RNA 數據的工作流中處理所有 130 萬個細胞的時間幾乎是單個 V100 GPU 的兩倍。另一方面,相同的工作流在單個 NVIDIA A100 40GB GPU 上只需 11 分鐘。不幸的是, V100 的性能下降了近 2 倍,主要原因是 GPU 的內存被超額訂閱,從而在需要時溢出到主機內存。在下一節中,我們將更詳細地介紹這種行為,但需要明確的是, GPU 的內存是擴展的限制因素。因此,更快地處理更大的工作負載需要更強大的 GPU 服務器,如 A100 或/或將處理分散到多個 GPU 服務器上。

將預處理擴展到多個 GPU 的好處

當工作流的內存使用量超過單個 GPU 的容量時,統一虛擬內存( UVM )可用于超額訂閱 GPU ,并自動溢出到主內存。這種方法在探索性數據分析過程中是有利的,因為適度的超額訂閱率可以消除在 GPU 內存不足時重新運行工作流的需要。

但是,嚴格依靠 UVM 將 GPU 的內存超額訂閱 2 倍或更多可能會導致性能不佳。更糟糕的是,當任何單個計算需要的內存超過 NVIDIA 上的可用內存時,它可能會導致執行無限期掛起。將計算擴展到多個 GPU 可以提高并行性并減少每個 GPU 上的內存占用。在某些情況下,它可以消除超額認購的需要。圖 2 表明,我們可以通過將預處理計算擴展到多個 GPU 來實現線性縮放,與單個 GPU V100 GPU 相比, 8 個 GPU s 會產生略微超過 8 倍的加速比??紤]到這一點,需要不到 2 分鐘才能將 130 萬個細胞和 18k 基因的數據集減少到約 129 萬個細胞和 8 GPU上 4k 個高度可變的基因。這超過了 8 。 55 倍的加速,因為單個 V100 需要 16 分鐘來運行相同的預處理步驟。

poYBAGJdIo-AERPgAAAswdnhv9s667.png

圖 2 :具有不同硬件配置的 130 萬小鼠腦細胞上典型單細胞 RNA 工作流的運行時間(秒)比較。在 GPU 上執行這些計算表明性能大幅提高。

pYYBAGJdIo-Ab7tOAACgAw0wGOo335.png

圖 3 :單個 GPU 配置的運行時主要由預處理步驟控制,在單個 V100 上占據 75% 的端到端運行時,在單個 A100 上占據 70% 的運行時。利用 DGX1 上的所有 GPU 將比率降低到略高于 32%.

使用 Dask 和 RAPIDS 將單細胞 RNA 筆記本擴展到多個 GPU

許多預處理步驟,如加載數據集、過濾嘈雜的轉錄本和細胞、將計數標準化為表達式以及特征選擇,本質上是并行的,每個 GPU 獨立負責其子集。糾正數據收集噪音影響的一個常見步驟是使用不需要的基因(如核糖體基因)的貢獻比例,并擬合許多小型線性回歸模型,數據集中每個轉錄本對應一個模型。由于轉錄本的數量通??梢赃_到數萬個,因此通常使用分散性或可變性的度量方法,只選擇幾千個最具代表性的基因。

Dask是一個優秀的庫,用于在一組工作進程上分發數據處理工作流。 RAPIDS 通過將每個工作進程映射到自己的 GPU ,使 Dask 也能夠使用 GPU s 。此外, Dask 提供了一個分布式陣列對象,非常類似于 NumPy 陣列的分布式版本(或CuPy,其 GPU 加速外觀相似),它允許用戶在多個 GPU 上,甚至跨多臺物理機器,分發上述預處理操作的步驟,操作和轉換數據的方式與 NumPy 或 CuPy 數組大致相同。

在預處理之后,我們還通過對數據子集進行訓練并分配推理來分配主成分分析( PCA )縮減步驟,通過僅將前 50 個主成分恢復到單個 GPU 來降低通信成本,用于剩余的聚類和可視化步驟。該數據集的 PCA 簡化單元矩陣僅為 260 MB ,允許在單個 GPU 上執行剩余的聚類和可視化步驟。使用這種設計,即使包含 500 萬個單元的數據集也只需要 1GB 內存。

poYBAGJdIpCAdFAgAAGLFqhWmy8515.png

圖 4 : 1 。 3M 小鼠腦細胞的樣本可視化,使用 cuML 的 UMAP 縮小為二維,并使用 cuGraph 的 Louvain 聚集

結論

以我們計算工具的發展速度,我們可以假設數據處理量很快就會迎頭趕上,特別是對于單細胞分析工作負載,這迫使我們需要更高的擴展。同時,通過將聚類和可視化步驟分布在多個 RAPIDS 上,仍有機會進一步減少探索性數據分析過程的迭代次數。更快的迭代意味著更好的模型,縮短洞察時間,以及更明智的結果。除 T-SNE 外,多 GPU 工作流筆記本的所有集群和可視化步驟都可以通過 GPU cuML 和 cuGraph 分布在 GPU 上的 Dask 工作人員上。

關于作者

Corey Nolet 是 NVIDIA 的 RAPIDS ML 團隊的數據科學家兼高級工程師,他專注于構建和擴展機器學習算法,以支持光速下的極端數據負載。在 NVIDIA 工作之前, Corey 花了十多年時間為國防工業的 HPC 環境構建大規模探索性數據科學和實時分析平臺??评锍钟杏砉W士學位計算機科學碩士學位。他還在攻讀博士學位。在同一學科中,主要研究圖形和機器學習交叉點的算法加速。科里熱衷于利用數據更好地了解世界。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4978

    瀏覽量

    102991
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4729

    瀏覽量

    128891
  • 機器學習
    +關注

    關注

    66

    文章

    8406

    瀏覽量

    132567
收藏 人收藏

    評論

    相關推薦

    《CST Studio Suite 2024 GPU加速計算指南》

    。 2. 操作系統支持:CST Studio Suite不同操作系統持續測試,可在支持的操作系統使用GPU計算,具體參考相關文檔。 3. 許可證:
    發表于 12-16 14:25

    NVIDIA加速計算引入Polars

    Polars 近日發布了一款由 RAPIDS cuDF 驅動的全新 GPU 引擎,該引擎可將 NVIDIA GPU 的 Polars 工作
    的頭像 發表于 11-20 10:03 ?197次閱讀
    將<b class='flag-5'>NVIDIA</b>加速計算引入Polars

    RAPIDS cuDF將pandas提速近150倍

    NVIDIA GTC 2024 ,NVIDIA 宣布,RAPIDS cuDF 當前已能夠為 950 萬 pandas 用戶帶來
    的頭像 發表于 11-20 09:52 ?164次閱讀
    <b class='flag-5'>RAPIDS</b> cuDF將pandas提速近150倍

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--了解算力芯片GPU

    每個CUDA單元 OpenCL 編程框架中都有對應的單元。 倒金字塔結構GPU存儲體系 共享內存是開發者可配置的編程資源,使用門檻較高,編程需要更多的人工顯式處理。 并行計算架構
    發表于 11-03 12:55

    AMD與NVIDIA GPU優缺點

    ,NVIDIA的RTX系列顯卡以其強大的光線追蹤和DLSS技術領先于市場。例如,NVIDIA的RTX 30804K分辨率下提供了卓越的游戲體驗,而AMD的Radeon RX 6800 XT雖然
    的頭像 發表于 10-27 11:15 ?641次閱讀

    NVIDIA文本嵌入模型NV-Embed的精度基準

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分數創下了嵌入準確率的新紀錄海量文本嵌入基準測試(MTEB)涵蓋 56 項嵌入任務。
    的頭像 發表于 08-23 16:54 ?1978次閱讀
    <b class='flag-5'>NVIDIA</b>文本嵌入模型NV-Embed的精度<b class='flag-5'>基準</b>

    暴漲預警!NVIDIA GPU供應大跳水

    gpu
    jf_02331860
    發布于 :2024年07月26日 09:41:42

    NVIDIA全面轉向開源GPU內核模塊

    借助 R515 驅動程序,NVIDIA 于 2022 年 5 月發布了一套開源的 Linux GPU 內核模塊,該模塊采用雙許可證,即 GPL 和 MIT 許可。初始版本主要面向數據中心計算 GPU,而 GeForce 和工作站
    的頭像 發表于 07-25 09:56 ?411次閱讀
    <b class='flag-5'>NVIDIA</b>全面轉向開源<b class='flag-5'>GPU</b>內核模塊

    英國公司實現英偉達CUDA軟件AMD GPU的無縫運行

    7月18日最新資訊,英國創新科技企業Spectral Compute震撼發布了其革命性GPGPU編程工具包——“SCALE”,該工具包實現了英偉達CUDA軟件AMD GPU的無縫遷移與運行,標志著
    的頭像 發表于 07-18 14:40 ?636次閱讀

    三星電子進軍GPU領域,與NVIDIA展開正面競爭

    科技行業的風起云涌中,三星電子再次展現了其敏銳的市場洞察力和前瞻性的戰略眼光。近日,據韓國媒體消息,三星電子在其管理委員會會議做出了一個令人矚目的決定——進軍圖形處理單元(GPU)領域,這一舉措無疑將對現有的
    的頭像 發表于 06-19 15:29 ?605次閱讀

    NVIDIA推出兩款基于NVIDIA Ampere架構的全新臺式機GPU

    兩款 NVIDIA Ampere 架構 GPU 為工作站帶來實時光線追蹤功能和生成式 AI 工具支持。
    的頭像 發表于 04-26 11:25 ?619次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱 Embedding 全置于
    的頭像 發表于 04-20 09:39 ?715次閱讀

    搭載英偉達GPU,全球領先的向量數據庫公司Zilliz發布Milvus2.4向量數據庫

    美國硅谷圣何塞召開的 NVIDIA GTC 大會上,全球領先的向量數據庫公司 Zilliz 發布了 Milvus 2.4 版本。這是一款革命性的向量數據庫系統,在業界首屈一指,它首次采用了英偉達
    的頭像 發表于 04-01 14:33 ?469次閱讀
    搭載英偉達<b class='flag-5'>GPU</b>,全球領先的向量數據庫公司Zilliz發布Milvus2.4向量數據庫

    FPGA深度學習應用中或將取代GPU

    上漲,因為事實表明,它們的 GPU 訓練和運行 深度學習模型 方面效果明顯。實際,英偉達也已經對自己的業務進行了轉型,之前它是一家純粹做 GPU 和游戲的公司,現在除了作為一家云
    發表于 03-21 15:19

    AMD GPU如何安裝和配置triton?

    最近在整理python-based的benchmark代碼,反過來NV的GPU又把Triton裝了一遍,發現Triton的github repo已經給出了對應的llvm的commit id以及對應的編譯細節,然后跟著走了一遍
    的頭像 發表于 02-22 17:04 ?2356次閱讀
    <b class='flag-5'>在</b>AMD <b class='flag-5'>GPU</b><b class='flag-5'>上</b>如何安裝和配置triton?
    主站蜘蛛池模板: 久久免费国产视频| 黑人巨大交牲老太| 国产日韩欧美综合久久| 青青草原亚洲| 88蜜桃人妻无码精品系列| 羞羞麻豆国产精品1区2区3区| china18一19 第一次| 美女撒尿无遮挡免费中国| 四虎精品久久久久影院| 成人AV精品视频| 精品久久久久久久久免费影院| 天天夜夜草草久久亚洲香蕉| 国产成人亚洲综合无| 小莹的性荡生活| 国产亚洲精品成人a在线| 亚洲合集综合久久性色| 果冻传媒 在线播放观看| 亚洲精品久久7777777| 精品久久免费观看| 在线国内自拍精品视频| 久久夜色精品国产亚州AV卜| 67194在线入口免费| 国内精品视频久久久久免费| 亚洲精品美女久久久久99| 精品国产免费第一区二区| 亚洲麻豆精品成人A在线观看| 黄色三级视频在线观看| 在线观看成人免费视频| 蜜桃色欲AV久久无码精品| WWW久久只有这里有精品| 肉动漫无码无删减在线观看| 99国产精品久久久久久久日本竹| 欧美69xxx| 丰满大爆乳波霸奶| 先锋影音av最新资源| 久久久久久九九| 99无人区码一码二码三| 日日噜噜噜夜夜爽爽狠狠| 国产最新地址| 97亚洲狠狠色综合久久位| 色欲AV亚洲永久无码精品麻豆|