基于分布特征遷移加權(quán)算法
大小:0.89 MB 人氣: 2018-01-09 需要積分:1
傳統(tǒng)機器學(xué)習面臨一個難題,即當訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不再服從相同分布時,由訓(xùn)練集得到的分類器無法對測試集文本準確分類。針對該問題,根據(jù)遷移學(xué)習原理,在源領(lǐng)域和目標領(lǐng)域的交集特征中,依據(jù)改進的特征分布相似度進行特征加權(quán);在非交集特征中,引入語義近似度和新提出的逆文本類別指數(shù)( TF-ICF),對特征在源領(lǐng)域內(nèi)進行加權(quán)計算,充分利用大量已標記的源領(lǐng)域數(shù)據(jù)和少量已標記的目標領(lǐng)域數(shù)據(jù)獲得所需特征,以便快速構(gòu)建分類器。在文本數(shù)據(jù)集20 Newsgroups和非文本數(shù)據(jù)集UCI中的實驗結(jié)果表明,基于分布和逆文本類別指數(shù)的特征遷移加權(quán)算法能夠在保證精度的前提下對特征快速遷移并加權(quán)。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%