大文本數據集的間接譜聚類
大?。?/span>0.59 MB 人氣: 2018-02-24 需要積分:1
標簽:數據集(24470)
針對譜聚類存在計算瓶頸的問題,提出了一種快速的集成算法,稱為間接譜聚類。它首先運用K-Means算法對數據集進行過分聚類,然后把每個過分簇看成一個基本對象,最后在過分簇的級別上利用標準譜聚類來完成總體的聚類。將該思想應用于大文本數據集的聚類問題后,過分簇中心之間的相似性度度量方法可以采用常用的余弦距離法。在20-Newgroups大本數據上的實驗結果表明:間接譜聚類算法在聚類準確性上比K-Means算法平均高出14. 72%;比規范割譜聚類僅低0.88%,但算法所需的計算時間平均不到規范割譜聚類的1/16,且隨著數據集的增大當規范割譜聚類遭遇計算瓶頸時,提出的算法卻能快速地給出次優解。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%