數據挖掘的四類方法
1、神經網絡方法
由于神經網絡本身具有良好的魯棒性、自組織適應性、自行處理性、分布存儲和高度容錯等特性,非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注和使用。典型的神經網絡模型主要分3大類:以感知機、BP反向傳播模型、函數型網絡為代表的,用于分類、預測和模式識別的神經網絡模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。神經網絡方法的缺點是“黑箱”性,人們難以從網絡中理解學習和決策過程。
2、遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種遺傳仿生的全局優化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。遺傳算法的數據挖掘工具,利用該工具對兩個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖掘的有效方法之一。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層數據單元;用遺傳算法和BP算法結合訓練神經網絡,然后從網絡提取規則等。但遺傳算法的算法較為之復雜,斂于局部極小的較早斂入問題尚未解決。
3、決策樹方法
決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的和潛在的信息。它的優點是描述簡單,分類速度快,適合于對大規模的數據處理。最有影響和最早的決策樹方法是ID3算法。它的主要問題是:ID3是非遞增學習算法;ID3決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系不夠強調;抗噪音性差。針對上述問題,出現了許多較好較為改進算法的ID4遞增式學習算法和IBLE算法等。
4、粗集方法
粗集方法專注于研究不精確、不確定知識的數學工具。粗集方法有幾個優點,不需要再提供額外信息;加強簡化輸入信息的表達空間;算法較為簡單,容易操作操作。粗集處理的對象是類似于二維關系的信息表。目前成熟的關系數據庫管理系統和新發展起來的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續性問題的屬性。而現實信息表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點重點。現在國際上已經研制出來了一些基于粗集的工具應用軟件,例如加拿大KDD-R軟件和美國的LERS軟件等。
-
數據挖掘
+關注
關注
1文章
406瀏覽量
24287
發布評論請先 登錄
相關推薦
評論