在數據和算法重新定義的世界中,數字化轉型正構成傳統企業的新競爭力,但實際被收集和利用的數據,遠比人們想象中少。
有效數據量少、模型開發效率低、專業技術人才匱乏,這些問題在企業應用數據分析面前形成了難以跨越的天塹。一邊中國市場上超半數的企業已經采用機器學習方法,實現高級數據分析預測,另一邊機器學習、數據科學的普及之路仍荊棘叢生。
在這一背景下,IDC發布《數據分析新速度:加速數據科學轉變成商業洞察》白皮書,重新審視數據科學的定義與生態,對機器學習、數據科學在中國市場的落地現狀進行全面調研。
數據爆炸時代:加速AI落地中的困境
在大數據、人工智能等新興技術的助推下,數據科學從常規數據分析發展到高級預測分析與智能預測,其定義正在被重新審視。
本白皮書中,IDC將機器學習與圖算法為主的工作負載定義為數據科學,其核心技術即經典機器學習技術,正在企業用戶中開始復興。據IDC調研,當前中國市場上74%的企業已采用包含機器學習的數據科學平臺,其他企業均表示在未來24個月內有計劃采用這一平臺。
在當前金融應用場景中,80%的分析預測模型采用機器學習模型,支撐預判欺詐風險、優化量化投資等業務應用。而每成功識別一筆欺詐交易行為,每準確預測一次市場行情變化,對企業的經濟利益可能是百萬級甚至上億級。
還有在零售場景,隨著個性化服務需求升級,更多零售企業正通過機器學習形成線下線上融合的用戶畫像追蹤,實現千人千面精準營銷,顯著提升用戶粘度。
數據科學在文娛、教育、電信、制造、醫療、政府、媒體、能源、交通、地產等行業中均得到廣泛應用。根據IDC提供的數據,中國企業在深度學習和機器學習方面的投入持續增加,高級數據預測分析、經典機器學習相關的市場規模在2018年達到3.0億美金,預計到2022年將達到29億美金。
2018-2022年中國人工智能應用市場規模(單位:百萬美金)
不過企業要想應用機器學習,還需先解決很多挑戰。
首先,數據準備和建模耗時長。其次,數據資源嚴重匱乏。IDC調研發現,目前只有一線互聯網公司擁有超數千PB級別數據,大部分企業的數據量僅在1TB-20TB之間。另外企業積累的大部分數據不能直接用于模型訓練,被注入到AI模型的數據不足1%。此外,數據科學工作負載開發效率不高。許多剛涉足機器學習應用的企業,對底層算力和基于硬件的優化缺乏清晰的認知,尚未意識到加速計算給企業開發效率帶來的價值。
企業采用加速方案后的效果
要在應用機器學習時繞開這些瓶頸,選擇合適的數據科學平臺則至為關鍵。
數據科學平臺選型:門檻低,速度快
DC在白皮書中,就平臺選擇的考量因素給出許多具體可行的建議。
例如使用機器學習平臺開發模型時,應與企業實際業務需求充分匹配。
IDC發現,大部分企業已采用加速方案,其中采用GPU加速的居多,占比達50%。
企業采用機器學習平臺時使用到的加速方案情況
其中,NVIDIA在2018年10月推出RAPIDS開源GPU加速平臺正得到越來越多企業的應用。
NVIDIA RAPIDS平臺致力于加速大規模數據分析和機器學習工作負載,該平臺建立在NVIDIA CUDA-X AI平臺之上,提供了一系列面向機器學習、深度學習和高性能計算的專用GPU加速庫,這些庫與NVIDIA Tensor Core GPU無縫地配合工作,可加速從數據準備、模型訓練到預測的整個端到端流程,大大提升AI任務執行效率和模型精度,同時降低基礎架構TCO。
當前百度、阿里云、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已采用NVIDIA RAPIDS平臺加速數據科學研究。
應用無處不在,精度效率雙提升
從應用角度來看,在國內金融、零售、云計算等多個行業場景中,RAPIDS均已展現出色的加速能力。
1、案例一:提升端到端量化投資預測效果
在金融領域,如何提升開發效率是量化投資工具面臨的主要挑戰。
寬邦科技打造的AI量化投資平臺BigQuant旨在讓金融業務人員都能零門檻地使用AI提升投資效率和效果,每月為金融機構和10萬C端用戶提供數百萬次機器學習模型訓練。
采用NVIDIA RAPIDS平臺后,其GBDT模型在特征工程提取環節速度提升100倍,聚類算法速度提升200倍,同時系統預測準確度也得以提升。
2、案例二:顯著提升理賠審核能力
銀行做信用評分時,通常用XGBoost在Spark上進行運算,完成一次端到端模型迭代一般需要幾天,新的用戶行為特征也不能實時更新到模型訓練中,會影響后期的精度。
平安科技引入NVIDIA RAPIDS在NVIDIA DGX-2超級計算機上進行模型運算,將模型運算速度提升40倍,模型訓練時間從周壓縮到分鐘,不僅大大節省人力成本。
平安科技副總工程師、聯邦學習技術部總經理王健宗表示,RAPIDS平臺“不僅大大提升了效率,對于精度的提升也指日可待”。
3、案例三:大幅提速數據準備
云計算廠商也在借助RAPIDS平臺提升任務執行效率,國內首家提供RAPIDS加速庫服務的公有云廠商是阿里云。
機器學習算法往往產生大量數據傳輸,至今仍難以實現并行化。隨著服務器系統引入GPU加速的機器學習算法以及NVIDIA NVLink、NVSwitch等技術,模型訓練現可輕松分布在多個GPU和多個節點間,幾乎不會產生延遲。
實例上,使用GPU加速的XGBoost訓練任務可提速20倍以上。
結語:加速數據分析正滲透到更多行業
數據科學應用的程度正拉大企業間的競爭差距和收益差距,數字化程度好的銀行、航空公司、酒店等機構,收入及稅前利潤明顯高于數字化落后的同類機構。
企業如果不想在智能化趨勢中落后于人,不僅希望有更易上手的數據科學平臺,而且需要采用更好的加速方案來縮短開發周期。
IDC預計到2021年,90%的新智能系統將嵌入以決策為中心的加速計算架構,能自動檢測和評估當前形勢并作出應對決策。這將幫助更多企業優化生產效率,更為游刃有余地去適應客戶需求以及競爭環境的快速變化。
-
核心技術
+關注
關注
4文章
625瀏覽量
19647 -
機器學習
+關注
關注
66文章
8438瀏覽量
132936 -
數據分析
+關注
關注
2文章
1460瀏覽量
34114
原文標題:74%企業已采用數據科學平臺!IDC新報告,揭秘加速數據分析的核心要訣
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論