色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何選擇適合的聚類算法?聚類分析時需要使用什么變量?

資治通信 ? 來源:lp ? 2019-04-01 17:19 ? 次閱讀

聚類分析(cluster analysis)是常見的數據挖掘手段,其主要假設是數據間存在相似性。而相似性是有價值的,因此可以被用于探索數據中的特性以產生價值。常見應用包括:

用戶分割:將用戶劃分到不同的組別中,并根據簇的特性而推送不同的廣告欺詐檢測:發現正常與異常的用戶數據,識別其中的欺詐行為

如上圖,數據可以被分到紅藍綠三個不同的簇(cluster)中,每個簇應有其特有的性質。顯然,聚類分析是一種無監督學習,是在缺乏標簽的前提下的一種分類模型。當我們對數據進行聚類后并得到簇后,一般會單獨對每個簇進行深入分析,從而得到更加細致的結果。

常見的聚類方法有不少,比如K均值(K-Means),譜聚類(Spectral Clustering),層次聚類(Hierarchical Clustering),大部分機器學習參考書上都有介紹,此處不再贅述。今天主要探討實際聚類分析時的一些技巧。

01 如何選擇適合的聚類算法

聚類算法的運算開銷往往很高,所以最重要的選擇標準往往是數據量。

但數據量上升到一定程度時,如大于10萬條數據,那么大部分聚類算法都不能使用。最近讀到的一篇對比不同算法性能隨數據量的變化[1]很有意思。在作者的數據集上,當數據量超過一定程度時僅K均值和HDBSCAN可用。

我的經驗也是,當數據量超過5萬條數據以后,K均值可能是比較實際的算法。但值得注意的是,K均值的效果往往不是非常好,我曾在如何正確使用「K均值聚類」?中對K均值進行過總結:

因此不難看出,K均值算法最大的優點就是運行速度快,能夠處理的數據量大,且易于理解。但缺點也很明顯,就是算法性能有限,在高維上可能不是最佳選項。

一個比較粗淺的結論是,在數據量不大時,可以優先嘗試其他算法。當數據量過大時,可以試試HDBSCAN。僅當數據量巨大,且無法降維或者降低數量時,再嘗試使用K均值。

一個顯著的問題信號是,如果多次運行K均值的結果都有很大差異,那么有很高的概率K均值不適合當前數據,要對結果謹慎的分析。

另一種替代方法是對原始數據進行多次隨機采樣得到多個小樣本,并在小樣本上聚類,并融合結果。比如原始數據是100萬,那么從中隨機采樣出100個數據量等于1萬的樣本,并在100個小數據集上用更為復雜的算法進行聚類,并最終融合結果。

此處需要注意幾點問題:

隨機采樣的樣本大小很重要,也不能過小。需要足夠有代表性,即小樣本依然可以代表總體的數據分布。如果最終需要劃分很多個簇,那么要非常小心,因為小樣本可能無法體現體量很小的簇。

在融合過程中要關注樣本上的聚類結果是否穩定,隨機性是否過大。要特別注意不同樣本上的簇標號是否統一,如何證明不同樣本上的簇結果是一致的。

因此我的經驗是,當數據量非常大時,可以優先試試K均值聚類,得到初步的結果。如果效果不好,再通過隨機采樣的方法構建更多小樣本,手動融合模型提升聚類結果,進一步優化模型。

02 聚類分析時需要使用什么變量?

這個是一個非常難回答的問題,而且充滿了迷惑性,不少人都做錯了。舉個簡單的例子,我們現在有很多客戶的商品購買信息,以及他們的個人信息,是否該用購買信息+個人信息來進行聚類呢?

未必,我們需要首先回答最重要的一個問題:我們要解決什么問題?

如果我們用個人信息,如性別、年齡進行聚類,那么結果會被這些變量所影響,而變成了對性別和年齡的聚類。所以我們應該先問自己,“客戶購物習慣”更重要還是“客戶的個人信息”更重要?

如果我們最在意的是客戶怎么花錢,以及購物特征,那就應該完全排除客戶的個人信息(如年齡性別家庭住址),僅使用購買相關的數據進行聚類。這樣的聚類結果才是完全由購買情況所驅動的,而不會受到用戶個人信息的影響。

那該如何更好的利用客戶的個人信息呢?這個應該被用在聚類之后。當我們得到聚類結果后,可以對每個簇進行分析,分析簇中用戶的個人情況,比如高凈值客戶的平均年齡、居住區域、開什么車。無關變量不應該作為輸入,而應該得到聚類結果后作為分析變量。

一般情況下,我們先要問自己,這個項目在意的是什么?很多時候個人信息被錯誤的使用在了聚類當中,聚類結果完全由個人信息所決定(比如男性和女性被分到了兩個簇中),對于商業決策的意義就不大了。一般來說,應該由商業數據驅動,得到聚類結果后再對每個簇中的用戶個人信息進行整合分析。

但值得注意的是,這個方法不是絕對的。在聚類中有時候也會適當引入個人信息,也可以通過調整不同變量的權重來調整每個變量的影響。

03 如何分析變量的重要性?

首先變量選擇是主觀的,完全依賴于建模者對于問題的理解,而且往往都是想到什么用什么。因為聚類是無監督學習,因此很難評估變量的重要性。介紹兩種思考方法:

考慮變量的內在變化度與變量間的關聯性:一個變量本身方差很小,那么不易對聚類起到很大的影響。如果變量間的相關性很高,那么高相關性間的變量應該被合并處理。直接采用算法來對變量重要性進行排序:比如 Principal Feature Analysis [2],網上有現成的代碼 [3]。

另一個雞生蛋蛋生雞的問題是,如果我用算法找到了重要特征,那么僅用重要特征建模可以嗎?這個依然不好說,我覺得最需要去除的是高相關性的變量,因為很多聚類算法無法識別高相關性,會重復計算高相關性特征,并夸大了其影響,比如K均值。

04 如何證明聚類的結果有意義?如何決定簇的數量?

聚類分析是無監督學習,因此沒有具體的標準來證明結果是對的或者錯的。一般的判斷方法無外乎三種:

人為驗證聚類結果符合商業邏輯。比如我們對彩票客戶進行聚類,最終得到4個簇,其中分為:

“高購買力忠實客戶”:花了很多錢的忠實客戶,他們可能常年購買且花費不菲

“普通忠實客戶”:常年購買,但每次的購買額度都不大

“刺激性消費單次購買者”:只購買了幾次,但是一擲千金

“謹慎的單次購買者”:只購買了幾次,每次買的都很謹慎

我們可以用通過商業邏輯來解釋聚類結果,結果應該大致符合行業專家的看法。最終你的聚類結果需要回歸到現實的商業邏輯上去,這樣才有意義。

預先設定一些評估標準,比如簇內的緊湊度和簇間的疏離度,或者定義好的函數如Silhouette Coefficient。一般來說設定一個好的評估標準并不容易,所以不能死板的單純依賴評估函數。

通過可視化來證明不同簇之間的差異性。因為我們一般有超過兩個變量,所以會需要先對數據進行壓縮,比如很多流形學習的方法多維縮放(multi-dimensional scaling)。

以下圖為例,我把數據分成了四個簇,并用T-SNE壓縮到二維并繪制出來。從直觀上看,不同簇間有了一定區別。類似的可視化也可以在變量間兩兩繪制,或者直接畫pairplot。

所以如何定義一個好的聚類結果?我認為應該符合幾個基本標準:

符合商業常識,大致方向上可以被領域專家所驗證可視化后有一定的區別,而并非完全隨機且交織在一起如果有預先設定的評估函數,評估結果較為優秀

因此決定簇的數量也應該遵循這個邏輯,適當的數量應該滿足以上三點條件。如果某個簇的數量過大或者過小,那可以考慮分裂或者合并簇。

當然,聚類作為無監督學習,有很多模棱兩可的地方。但應時時牢記的是,機器學習模型應服務商業決策,脫離問題空談模型是沒有意義的。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    24287
  • 聚類算法
    +關注

    關注

    2

    文章

    118

    瀏覽量

    12145
  • 聚類分析
    +關注

    關注

    0

    文章

    16

    瀏覽量

    7424

原文標題:【集客經營】干貨:如何對用戶進行「聚類分析」?

文章出處:【微信號:xiacoinfo,微信公眾號:資治通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種基于GiST的層次算法

    層次方法是聚類分析的一個重要方法。該文利用通用搜索樹實現了一種新的層次算法,可以把整個
    發表于 04-23 10:10 ?24次下載

    算法研究

    算法研究:對近年來算法的研究現狀與新進展進行歸納總結.一方面對近年來提出的較有代表性的
    發表于 10-31 08:57 ?18次下載

    基于PLSA模型的用戶興趣算法研究

    對用戶訪問日志數據進行分析,構造會話-類型矩陣,利用概率潛在語義分析模型建立合適的用戶興趣聚類分析算法,提高用戶興趣
    發表于 01-27 15:39 ?19次下載

    算法融合算法研究

    算法融合算法研究首先對
    發表于 08-10 15:08 ?33次下載
    <b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>及<b class='flag-5'>聚</b><b class='flag-5'>類</b>融合<b class='flag-5'>算法</b>研究

    一種擬人算法在PHM聚類分析中的應用

    一種擬人算法在PHM聚類分析中的應用_賀呈磊
    發表于 01-07 21:39 ?0次下載

    基于C均值的定位算法

    為了提高WSN節點定位精度,針對測距誤差對定位結果的影響,提出基于模糊C均值的定位算法算法首先利用多邊定位算法得到若干個定位結果,利用
    發表于 11-09 17:47 ?10次下載

    聚類分析的簡單案例

    聚類分析經常和有監督分類相混淆,有監督分類是為定義的分類響應變量預測分組或者類別關系。而聚類分析,從另一方面考慮,它是一種無監督分類技術。它能夠在所有輸入變量的基礎上識別出數據集中的分
    的頭像 發表于 02-23 10:00 ?7.6w次閱讀
    <b class='flag-5'>聚類分析</b>的簡單案例

    淺談Matlab中的聚類分析 Matlab程序的設計

    Matlab 提供系列函數用于聚類分析,歸納起來具體方法有如下: 方法一:直接,利用 clusterdata 函數對樣本數據進行一次
    發表于 05-18 15:04 ?7390次閱讀

    如何使用K-Means算法改進的特征加權算法詳細資料概述

    聚類分析是將研究對象分為相對同質的群組的統計分析技術,聚類分析的核心就是發現有用的對象簇。K-means
    發表于 12-20 10:28 ?10次下載

    正確選擇算法的建議

    算法十分容易上手,但是選擇恰當的算法并不是一
    的頭像 發表于 03-15 17:10 ?2164次閱讀

    如何在python中安裝和使用頂級算法?

    聚類分析是無監督學習問題。它通常被用作數據分析技術,用于發現數據中的有趣模式,例如基于其行為的客戶群。有許多
    的頭像 發表于 03-12 18:23 ?2259次閱讀

    10種算法和Python代碼1

    分享一篇關于的文章: **10種算法和Python代碼** 。文末提供`jupyter notebook`
    的頭像 發表于 02-20 13:57 ?884次閱讀
    10種<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>和Python代碼1

    10種算法和Python代碼2

    分享一篇關于的文章: **10種算法和Python代碼** 。文末提供`jupyter notebook`
    的頭像 發表于 02-20 13:57 ?1031次閱讀
    10種<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>和Python代碼2

    10種算法和Python代碼3

    分享一篇關于的文章: **10種算法和Python代碼** 。文末提供`jupyter notebook`
    的頭像 發表于 02-20 13:57 ?1180次閱讀
    10種<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>和Python代碼3

    10種算法和Python代碼4

    分享一篇關于的文章: **10種算法和Python代碼** 。文末提供`jupyter notebook`
    的頭像 發表于 02-20 13:57 ?1333次閱讀
    10種<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>算法</b>和Python代碼4
    主站蜘蛛池模板: 99在线观看视频 | 国产免费内射又粗又爽密桃视频 | 久久热精品18国产 | 美女也烦恼主题曲 | 在线A亚洲老鸭窝天堂AV高清 | 高清不卡伦理电影在线观看 | 爱穿丝袜的麻麻3d漫画acg | 一个人免费视频在线观看高清频道 | 久久国产高清字幕中文 | 成人性生交大片免费看4 | 女性BBWBBWBBWBBW | 女人被躁到高潮嗷嗷叫69 | 嗯别插太快好深再深点 | 暖暖 免费 日本 高清 在线1 | 内射后入在线观看一区 | 最新老头恋老OLDMAN | 亚洲zooz人禽交xxxx | 色欲AV精品一区二区入口 | 男女免费观看在线爽爽爽视频 | 午夜国产羞羞视频免费网站 | 亲胸摸下面激烈免费网站 | 无码一卡二卡三卡四卡 | 欧美巨大巨粗黑人性AAAAAA | 日本久久频这里精品99 | 久青草影院 | 国产最新精品亚洲2021不卡 | 久久久久久久尹人综合网亚洲 | 无人区日本电影在线观看高清 | 久久久96人妻无码精品蜜桃 | 暖暖 免费 高清 日本视频5 | 亚洲精品久久久午夜麻豆 | 国产精品久久久久久久伊一 | 在线观看精品视频看看播放 | 午夜影院c绿象 | 欧美AAAAAA级午夜福利视频 | 欧美精品成人一区二区在线观看 | 二级毛片免费观看全程 | 边摸边吃奶玩乳尖视频 | 亚洲 欧美 日本 国产 高清 | 国产在线成人一区二区三区 | 国产亚洲精品视频亚洲香蕉视 |