隨著 AI 正幫助各行各業推動創新和提高效率,基于海量的高質量數據來訓練各種模型是充分發揮 AI 應用潛力的必經之路,正因如此,數據科學家們面臨著日益增長的工作負載需求,迫切需求尋找高效趁手的工具以應對挑戰。
Pandas 是一個靈活而強大的 Python 數據分析和處理庫,由于其是一款非常易于使用的 API,成為了數據科學家的首選。然而,隨著數據集大小的增長,Pandas 在純 CPU 系統中的處理速度和效率方面就會遇到困難。
對于面向數據分析工作的 DataFrame 軟件庫,除了 Pandas,目前還有一顆冉冉上升的開源新星——Polars。相比于主要依賴單線程執行的 Pandas,Polars 在處理大數據集時的速度通常比其快 5 到 10 倍。
盡管 Pandas 和 Polars 在數據處理領域各有所長,但是處理超大數據集不僅需要極致發揮 CPU 的能力,也需要 GPU 發揮作用。在這一背景下,NVIDIA 發布了 RAPIDS cuDF 庫,用于加載、連接、聚合、過濾和以其他方式操作數據,充分利用了 GPU 大規模并行處理能力的優勢。
RAPIDS 是一套開源的 GPU 加速 Python 程序庫,旨在改進數據科學和分析工作流。RAPIDS cuDF 是一個 GPU DataFrame 程序庫,其提供了一個類似 Pandas 的 API,用于加載、過濾和操作數據。cuDF 的早期版本只適用于 GPU 開發工作流程。而 NVIDIA 也在持續對這一應用進行更新。
現在 RAPIDS cuDF 可以為 950 萬 Pandas 用戶帶來 GPU 加速,而無需他們更改代碼,根據數據集大小為 5 GB 的分析基準測試結果,處理時間縮短到原來的 1/150。而由 RAPIDS cuDF 驅動的全新 GPU 引擎已經可將 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍,這意味著僅在一臺機器上數據科學家就能實現在數秒內處理數億行數據。
借助 RAPIDS cuDF,數據科學家現在可以在他們首選的代碼庫上全速運行數據處理。此外,隨著數據集規模不斷增長,處理工作占用更多內存,在 NVIDIA RTX 加持的 AI 工作站和 PC 上的運行也實現了顯著的速度提升。相比于基于傳統 CPU 的解決方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架構 GPU,可以將性能提升多達 100 倍。
通過以下博客了解更多關于 RAPIDS cuDF 的最新信息,解鎖在 AI 應用與解決方案中加速數據分析探索的創新靈感。
無需更改代碼即可將 Pandas 提速近 150 倍
Pandas 是 Python 生態系統中最流行的 DataFrame 程序庫,但它的速度會隨著 CPU 上數據量的增加而變慢。現在只需一條命令,用戶就可以在無需更改代碼的情況下,使用 cuDF 將加速計算引入到其 Pandas 工作流中。根據數據集大小為 5 GB 的分析基準測試結果,處理時間縮短到原來的 150 分之一。
點擊閱讀《無需更改代碼,RAPIDS cuDF 將 Pandas 提速近 150 倍》了解更多 cuDF 將統一的 CPU/GPU 體驗引入 Pandas 工作流并為其帶來頂尖性能的詳細信息。
RAPIDS cuDF 驅動的 Polars GPU 引擎
最高提速 13 倍
RAPIDS cuDF 驅動的 Polars GPU 引擎現已發布公測版,為各行各業的數據科學家和工程師提供了一種適用于中等規模數據處理的強大工具。該引擎最高能夠將 NVIDIA GPU 上的 Polars 工作流速度提速 13 倍,可以在不產生分布式系統開銷的情況下,高效處理數億行規模的數據集。Polars GPU 引擎直接內置在 Polars API 中,使所有用戶都能輕松訪問。
點擊閱讀《RAPIDS cuDF 驅動的 Polars GPU 引擎發布公測版》了解更多將 NVIDIA 加速計算引入 Polars 顯著提升加速性能的詳細介紹。
使用 RAPIDS cuDF 加速預處理工作流
突破數據科學的瓶頸
隨著 AI 和數據科學的不斷發展,快速處理和分析大量數據集的能力將成為各行業實現突破的關鍵差異化因素。無論是開發復雜的機器學習模型、執行復雜的統計分析還是探索生成式 AI,RAPIDS cuDF 都可為新一代數據處理奠定基礎。
點擊閱讀《解密 AI 如何加速數據科學工作流》了解更多相關信息,預見 RTX AI 將如何為未來的工程師創造無限可能。
GTC 2025 將于2025 年 3 月 17 至 21 日在美國加州圣何塞及線上同步舉行。
-
NVIDIA
+關注
關注
14文章
5074瀏覽量
103525 -
gpu
+關注
關注
28文章
4768瀏覽量
129213 -
AI
+關注
關注
87文章
31475瀏覽量
269869 -
數據科學
+關注
關注
0文章
166瀏覽量
10082
原文標題:合集詳解 RAPIDS cuDF 如何賦能 AI 加速數據科學
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論