數據挖掘源自《從數據庫中發現知識》(縮寫為KDD)。它首次出現在1989年8月在底特律舉行的第十一屆國際聯合人工智能會議上。為了統一理解,Fayyad,Piatetsky-Shapiro和Smyth在權威文章集《知識發現與數據進展》中給出了KDD和數據挖掘的最新定義。從中總結了1996年該領域的進展,并予以區分:
KDD的定義是:KDD是從數據中識別有效,新穎,潛在有用且最終可以理解的模式的過程。
數據挖掘的定義是:數據挖掘是KDD中的一步,它使用特定算法在可接受的計算效率限制內生成特定模式。
數據挖掘技術的特點
1.基于大量數據:不是說無法挖掘小數據量。實際上,大多數數據挖掘算法都可以在較小的數據量上運行并獲得結果。但是,一方面,過小的數據量可以通過手動分析來總結,另一方面,小數據量通常不能反映現實世界的一般特征。
2.非平凡性:所謂非平凡的意思是指所挖掘的知識是不簡單的。一定不能與著名體育評論員所說的相似:“經過我的計算,直到比賽結束我才發現了一個有趣的現象。本屆世界杯的進球數和失球數都是相同的。非常巧合!”這種知識。這似乎沒有必要,但是許多不了解業務知識的數據挖掘新手經常會犯此錯誤。
3.隱含性:數據挖掘是發現數據深處的知識,而不是直接出現在數據表面的信息。常用的BI工具(例如億信BI和豌豆BI)完全可以讓用戶找到此信息。
4.新奇性:挖掘的知識以前應該是未知的,否則僅是為了驗證業務專家的經驗。只有新知識才能幫助公司獲得進一步的洞察力。
5.價值性:挖掘的結果必須為企業帶來直接或間接的利益。有人說數據挖掘只是“殺龍技術”。它看起來牛氣哄哄,但沒有用。這只是一個錯誤的想法。不可否認的是,在某些數據挖掘項目中,由于缺乏明確的業務目標,或者由于數據質量不足,或者由于人們抵制不斷變化的業務流程,又或者由于挖掘人員缺乏經驗,都會導致結果不佳甚至根本沒有效果。但是,大量成功的案例也證明了數據挖掘確實可以成為提高效率的武器。
-
人工智能
+關注
關注
1792文章
47442瀏覽量
239012 -
數據挖掘
+關注
關注
1文章
406瀏覽量
24266
發布評論請先 登錄
相關推薦
評論