色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

傳統方法和深度學習的情感分析

lviY_AI_shequ ? 來源:未知 ? 作者:工程師曾玲 ? 2018-09-23 09:44 ? 次閱讀

1.問題

Kaggle競賽Bag of Words Meets Bags of Popcorn是電影評論(review)的情感分析,可以視作為短文本的二分類問題(正向、負向)。標注數據集長這樣:

傳統方法和深度學習的情感分析

評價指標是AUC。因此,在測試數據集上應該給出概率而不是類別;即為predict_proba而不是predict:

# random frorest result = forest.predict_proba(test_data_features)[:, 1] # not `predict` result = forest.predict(test_data_features)

采用BoW特征、RF (random forest)分類器,預測類別的AUC為0.84436,預測概率的AUC則為0.92154。

2.分析

傳統方法

傳統方法一般會使用到兩種特征:BoW (bag of words),n-gram。BoW忽略了詞序,只是單純對詞計數;而n-gram則是考慮到了詞序,比如bigram詞對"dog run"、"run dog"是兩個不同的特征。BoW可以用CountVectorizer向量化:

from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(analyzer="word", tokenizer=None, preprocessor=None, stop_words=None, max_features=5000) train_data_features = vectorizer.fit_transform(clean_train_reviews)

在一個句子中,不同的詞重要性是不同的;需要用TFIDF來給詞加權重。n-gram特征則可以用TfidfVectorizer向量化:

from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(max_features=40000, ngram_range=(1, 3), sublinear_tf=True) train_x = vectorizer.fit_transform(clean_train_reviews)

使用unigram、bigram、trigram特征 + RF分類器,AUC為0.93058;如果改成LR分類器,則AUC為0.96330。

深度學習

競賽tutorial給出用word2vec詞向量特征來做分類,并兩個生成特征思路:

對每一條評論的所有詞向量求平均,將其平均值作為改評論的特征;

對訓練的詞向量做聚類,然后對評論中的詞類別進行計數,把這種bag-of-centroids作為特征。

把生成這種特征喂給分類器,進行分類。但是,這種方法的AUC不是太理想(在0.91左右)。無論是做平均還是聚類,一方面丟失了詞向量的特征,另一方面忽略了詞序還有詞的重要性。因此,分類效果不如tfidf化的n-gram。

大神Mikolov在推出word2vec之后,又鼓搗出了doc2vec(gensim有實現)。簡單地說,就是可以把一段文本變成一個向量。與word2vec不同的是,參數除了doc對應的詞列表外,還有類別(TaggedDocument)。結果證明doc2vec的效果還不如word2vec生成特征,AUC只有0.87915。

doc2vec = Doc2Vec(sentences, workers=8, size=300, min_count=40, window=10, sample=1e-4)

pangolulu嘗試把BoW與doc2vec做ensemble,采用stacking的思路——L1層BoW特征做LR分類、doc2vec特征做RBF-SVM分類,L2層將L1層的預測概率組合成一個新特征,喂給LR分類器;多次迭代后求平均。ensemble結構圖如下:

傳統方法和深度學習的情感分析

以上所有方法的AUC對比如下:

傳統方法和深度學習的情感分析

3.參考資料

[1] Zygmunt Z.,Classifying text with bag-of-words: a tutorial.

[2] Michael Czerny,Modern Methods for Sentiment Analysis.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5512

    瀏覽量

    121410

原文標題:【從傳統方法到深度學習】情感分析

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    微表情識別-深度學習探索情感

    來源:易百納技術社區 隨著人工智能技術的不斷進步,深度學習成為計算機視覺領域的重要技術。微表情識別作為人類情感分析的一種重要手段,受到了越來越多的關注。本文將介紹基于
    的頭像 發表于 08-14 17:27 ?2211次閱讀
    微表情識別-<b class='flag-5'>深度</b><b class='flag-5'>學習</b>探索<b class='flag-5'>情感</b>

    #硬聲創作季 #深度學習 深度學習基礎-7.1.1 情感分析傳統求解方法

    深度學習
    水管工
    發布于 :2022年10月27日 18:30:08

    [7.1]--7.1情感分析傳統求解方法

    深度學習
    jf_60701476
    發布于 :2022年12月01日 02:28:28

    圖像分類的方法深度學習傳統機器學習

    實際情況非常復雜,傳統的分類方法不堪重負。現在,我們不再試圖用代碼來描述每一個圖像類別,決定轉而使用機器學習方法處理圖像分類問題。 目前,許多研究者使用CNN等
    發表于 09-28 19:43 ?0次下載

    基于深度學習的卷積神經網絡模型分析文本的情感傾向

    神經網絡模型均未考慮句子的結構信息,并且在訓練時很容易發生過擬合。針對這兩方面的不足,使用基于深度學習的卷積神經網絡模型分析文本的情感傾向,采用分段池化的策略將句子結構考慮進來,分段提
    發表于 11-23 15:10 ?11次下載

    基于CD-RBM深度學習的產品評論情感分析

    針對目前大部分情感分析技術需要人工標注建立情感詞典提取情感特征的問題,提出一種基于對比散度一受限玻爾茲曼機( CD-RBM)深度
    發表于 12-20 11:24 ?2次下載
    基于CD-RBM<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的產品評論<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

    主題種子詞的情感分析方法

    方法在自動構建領域主題種子詞及主題文本基礎上,利用主題種子詞監督的情感分析模型( SAA_SSW)實現主題及其關聯情感的聯合發現。實驗結果表明,相比
    發表于 01-04 14:33 ?1次下載
    主題種子詞的<b class='flag-5'>情感</b><b class='flag-5'>分析</b><b class='flag-5'>方法</b>

    基于上下文語境的微博情感分析

    傳統情感分析方法僅考慮單一文本,對長度短小且口語化嚴重的微博文本情感極性識別率較低。針對上述問題,提出一種結合上下文消息的
    發表于 02-24 11:34 ?0次下載
    基于上下文語境的微博<b class='flag-5'>情感</b><b class='flag-5'>分析</b>

    如何使用遷移學習的分層注意力網絡情感分析來算法的詳細資料概述

    文本情感分析的目的是判斷文本的情感類型。傳統的基于神經網絡的研究方法主要依賴于無監督訓練的詞向量,但這些詞向量無法準確體現上下文語境關系;常
    發表于 11-14 09:56 ?19次下載
    如何使用遷移<b class='flag-5'>學習</b>的分層注意力網絡<b class='flag-5'>情感</b><b class='flag-5'>分析</b>來算法的詳細資料概述

    如何使用情感分析深度學習實現宏觀經濟預測方法

    深度學習的預測方法(SA-LSTM)。首先考慮微博的強時效性,確定了微博爬取和情感分析方法
    發表于 11-16 10:41 ?15次下載
    如何使用<b class='flag-5'>情感</b><b class='flag-5'>分析</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>實現宏觀經濟預測<b class='flag-5'>方法</b>

    傳統CV和深度學習方法的比較

    深度學習推動了數字圖像處理領域的極限。但是,這并不是說傳統計算機視覺技術已經過時了。本文將分析每種方法的優缺點。本文的目的是促進有關是否應保
    的頭像 發表于 11-29 17:09 ?1171次閱讀

    基于深度學習情感語音識別模型優化策略

    情感語音識別技術是一種將人類語音轉化為情感信息的技術,其應用范圍涵蓋了人機交互、智能客服、心理健康監測等多個領域。隨著人工智能技術的不斷發展,深度學習
    的頭像 發表于 11-09 16:34 ?768次閱讀

    深度學習傳統機器學習的對比

    在人工智能的浪潮中,機器學習深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但
    的頭像 發表于 07-01 11:40 ?1509次閱讀

    基于LSTM神經網絡的情感分析方法

    情感分析是自然語言處理(NLP)領域的一項重要任務,旨在識別和提取文本中的主觀信息,如情感傾向、情感強度等。隨著深度
    的頭像 發表于 11-13 10:15 ?619次閱讀

    傳統機器學習方法和應用指導

    用于開發生物學數據的機器學習方法。盡管深度學習(一般指神經網絡算法)是一個強大的工具,目前也非常流行,但它的應用領域仍然有限。與深度學習相比
    的頭像 發表于 12-30 09:16 ?344次閱讀
    <b class='flag-5'>傳統</b>機器<b class='flag-5'>學習方法</b>和應用指導
    主站蜘蛛池模板: 中文字幕视频免费在线观看 | 在线亚洲97se | 成人毛片手机版免费看 | CHINA篮球体育飞机2023 | 俄罗斯videosbest8| 久久热在线视频精品店 | 久久人妻少妇嫩草AV无码 | 亚洲日本一区二区三区在线不卡 | 欧美精品一区二区蜜臀亚洲 | 国产SUV精品一区二区69 | 日本邪恶全彩工囗囗番海贼王 | 久久这里只精品热在线18 | 2021自产拍在线观看视频 | 久久成人国产精品一区二区 | 暗卫受被肉到失禁各种PLAY | 妺妺窝人体色WWW偷窥女厕 | 嫩草影院久久99 | 三级电影免费看 | 穿着丝袜被男生强行啪啪 | 久久香蕉国产免费天天 | 红桃传媒少妇人妻网站无码抽插 | 亚洲人成人77777在线播放 | 新妺妺窝人体色WWW 新金梅瓶玉蒲团性奴3 | 窝窝午夜色视频国产精品东北 | 亚洲国产精品久久又爽黄A片 | 狠狠色综合7777久夜色撩人 | 国产精品免费一区二区三区四区 | 欧美亚洲精品真实在线 | 久久久无码精品亚洲A片软件 | 欧美特黄三级成人 | 日本久久久久亚洲中字幕 | 全黄h全肉细节全文 | 中字幕视频在线永久在线 | 亚洲国产高清在线观看视频 | jjzz动漫| 久久国产加勒比精品无码 | 第一福利在线永久视频 | 久99re视频9在线观看 | 视频一区国产第一页 | 色偷拍自怕亚洲在线 | 亚洲国产精品久久人人爱 |