基于隱含狄列克雷分配LDA分類特征擴展的廣告過濾方法
大小:0.82 MB 人氣: 2017-12-14 需要積分:1
標簽:LDA(10554)
傳統的微博廣告過濾方法忽略了微博廣告文本的數據稀疏性、語義信息和廣告背景領域特征等因素的影響。針對這些問題,提出一種基于隱含狄列克雷分配( LDA)分類特征擴展的廣告過濾方法。首先,將微博分為正常微博和廣告型微博,并分別構建LDA主題模型預測短文本對應的主題分布,將主題中的詞作為特征擴展的基礎;其次,在特征擴展時結合文本類別信息提取背景領域特征,以降低其對文本分類的影響;最后,將擴展后的特征向量作為分類器的輸入,根據支持向量機(SVM)的分類結果過濾廣告。實驗結果表明,與現有的僅基于短文本分類的過濾方法相比,其準確率平均提升4個百分點。因此,該方法能有效擴展文本特征,并降低背景領域特征的影響,更適用于數據量較大的微博廣告過濾。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%