通常,我們在研究與處理事物時,經常需要將事物進行分類,例如地質勘探中根據物探、化探的指標將樣本進行分類;古生物研究中根據挖掘出的骨骼形狀和尺寸將它們分類;大壩監控中由于所得的觀測數據量十分龐大,有時亦需將它們分類歸并,獲得其典型代表再進行深入分析等,對事物進行分類,進而歸納并發現其規律已成為人們認識世界、改造世界的一種重要方法。
由于對象的復雜性,僅憑經驗和專業知識有時不能確切地分類,隨著多元統計技術的發展和計算機技術的普及,利用數學方法進行更科學的分類不僅非常必要而且完全可能。
近些年來,數值分類學逐漸形成了一個新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數據集合,很多研究領域,如工程、生物、醫藥、語言、人類學、心理學和市場學等,都對聚類技術的發展和應用起到了推動作用。
什么是聚類分析?
聚類分析也稱群分析或點群分析,它是研究多要素事物分類問題的數量方法,是一種新興的多元統計方法,是當代分類學與多元分析的結合。其基本原理是,根據樣本自身的屬性,用數學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。
聚類分析是將分類對象置于一個多維空問中,按照它們空問關系的親疏程度進行分類。
通俗的講,聚類分析就是根據事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。
聚類分析方法,是定量地研究地理事物分類問題和地理分區問題的重要方法,常見的聚類分析方法有系統聚類法、動態聚類法和模糊聚類法等。
聚類分析方法有什么好處
聚類分析:將個體(樣品)或者對象(變量)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在于使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不相似。
常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。
注意事項:
1. 系統聚類法可對變量或者記錄進行分類,K-均值法只能對記錄進行分類;
2. K-均值法要求分析人員事先知道樣品分為多少類;
3. 對變量的多元正態性,方差齊性等要求較高。
應用領域:細分市場,消費行為劃分,設計抽樣方案等
優點:聚類分析模型的優點就是直觀,結論形式簡明。
缺點:在樣本量較大時,要獲得聚類結論有一定困難。由于相似系數是根據被試的反映來建立反映被試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類,聚類分析所使用方法的不同,常常會得到不同的結論,不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
聚類分析的意義是什么
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
商業:聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。
生物:聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識
地理:聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性
保險行業:聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組
因特網:聚類分析被用來在網上進行文檔歸類來修復信息
電子商務:聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。
-
聚類分析
+關注
關注
0文章
16瀏覽量
7424
發布評論請先 登錄
相關推薦
評論