社會媒體的重要性眾所周知。全球人口中,一半人是網民,網民中的三分之二是社會媒體用戶。常見社會媒體包括Facebook,twitter,國內的微信和微博也是常用的社會媒體。我們在社會媒體能夠做各種各樣的事情,包括和親友交流溝通、獲取信息,分享或者表達我們的觀點。
從事社會媒體研究開發具有商業價值和社會價值。以各種媒體的廣告份額為例,電視媒體廣告的份額只有社會媒體廣告份額的一小部分,更何況是報紙和廣播等傳統媒體。因此從商業價值上社會媒體就是一個很值得我們研究的對象。這里我們可以用一個例子來展示:一個新浪微博用戶在頭天晚上晚上九點多發了條微博,表示想采購一款筆記本電腦,隔天早晨9點多就有促銷商要給他推銷產品了,可見從社會媒體上可以挖掘很多有價值的商業信息。統計結果表明,在社交媒體上的購買意向,最終轉化率超過了一半以上。社會媒體的社會價值更是毋庸置疑,以學術微博為例,學術研究人員可以在微博上推廣自己、結交朋友和獲取信息,政務微博的社會價值也是顯而易見。
下面從建模角度介紹如何對社會媒體進行描述。社會媒體可用一個異構網絡表示,異構網絡存在著兩種節點,一類是信息節點,實際上就是我們所發布的內容,比如文字、圖片、視頻、音頻;另一類節點是用戶節點,也就是發表信息的人,從普通的用戶、網紅一直到更權威的媒體和機構。同時網絡中存在著三種異構的邊:信息之間是有關聯的,一條微博后面跟著很多評論,這是信息間的關系。用戶間存在社會關系,例如粉絲關系。人和信息之間也存在關系,一條信息可以艾特給特定用戶,用戶也可以發布微博,這樣就構成一個非常復雜的異構網絡,也就是計算機所處理的對象。
我們實驗室做的研究工作主要集中在社會媒體用戶行為理解和預測方面,我們在媒體上試圖給用戶建模,理解用戶行為,預測接下來會有什么樣的行為模式。
社交媒體上的用戶行為非常復雜,以歌手和影星林志穎為例,他的微博經常發布使用蘋果手機的體驗。如何理解他的行為呢?最表層的行為是,他在使用蘋果手機,往深里看,他是蘋果手機的粉絲,再往深看,他很可能是蘋果手機的代言人。所以我們要看用戶真正表達什么樣的內容。
用戶行為受到四個因素影響,第一是用戶發表內容,第二是用戶是處在什么樣的社交關系之間,第三是當前時刻有哪些熱點事件,第四是用戶發布這條微博處在什么時空環境。社會媒體用戶的建模和預測需要聽其言和觀其行。所謂聽其言,就是利用各種技術分析用戶發布的數據,主要是自然語言處理技術,也包括語音識別、圖像視頻處理等。所謂觀其行,就是要分析結構,利用社區分析技術,定位人物所在的社交圈;利用關系分析技術,分析人物的朋友圈及其疏密度,利用信息傳播分析技術,分析人物的社會影響力。
社會媒體上的行為非常豐富,具體則取決于不同媒體,但也大同小異,例如在facebook上可以發表帖子,可以表示喜歡,可以評論,可以分享;在Twitter上可以表示轉發,可以點贊。過去幾年我跟復旦大學的同事張奇、博士生丁卓冶、宮葉云、桂韜,碩士生黃浩然、馬仁峰,朱亮,在社會媒體挖掘方面做了一些工作,主要是用戶行為建模和預測,包括微博標簽推薦、艾特用戶(公司)推薦、轉發行為預測、用戶話題參與預測,以及如何在社會媒體挖掘中融入多模態信息。在研究方法上,早期主要采用主題模型和機器學習的方法,這幾年逐漸轉到深度學習之上。
我們做的第一塊工作是微博標簽推薦。新浪微博的標簽是用兩個#符號標記的詞語或者短語,可以認為就是微博的關鍵詞,用來對微博的上下文內容做出提示,便于我們在短時間了解微博的內容。微博標簽推薦任務就是為每一條微博去推薦少許關鍵詞。統計結果表明只有15%的微博包含關鍵詞,因此這樣一塊工作是有一定意義的。接下來介紹我們怎么樣做微博標簽推薦這件工作,主要介紹我們的研究思路,而不是具體的實現細節。給定一條微博,我們先要判斷這條微博中哪些詞有可能成為微博的關鍵詞,這種詞叫觸發詞。觸發詞的識別比較簡單,首先抓取大量微博,其中出現在微博標簽的詞語就是候選詞,也就是觸發詞。如何判斷微博中的哪些觸發詞可以推薦為微博標簽,還需要看觸發詞出現在微博的具體位置。同時考慮觸發詞和觸發詞的上下文,我們提出了一個雙通道的深度學習模型,一個通道抽取觸發詞特征,另一個通道抽取全局特征,然后結合兩部分特征,對標簽進行推薦。
眾所周知,深度學習在過去幾年是非常熱門的研究方法,所謂的深度學習,實際上就是多層的神經網絡,從06年開始被廣泛應用于計算機視覺,之后在語音識別中取得了長足的進步,從13、14年開始在自然語言處理領域得到廣泛運用。自然語言處理中的深度學習主要有兩類工作,第一類是表示學習,給定句子、篇章、微博,如何用一個低維稠密的向量去表達它,怎么從字詞表示通過組合方式得到整個微博的表示。另一類工作是如何利用語言文字天生具有的序列信息完成各種語言處理任務。
怎樣用深度學習來進行標簽推薦呢?我們在微博中尋找觸發詞,在局部通道中通過注意力機制判斷這些觸發詞是不是重要的詞語,通過全局通道得到微博的全局表示,利用卷積神經網絡融合局部和全部兩個通道的信息。為了評價標簽推薦的效果,我們使用精度、召回率和F值作為評價指標。精度就用來表示算法推薦的標簽中有多少是微博原作者給定的標簽,召回率表示微博原作者給定的標簽有多少比例被算法推薦,F值則是精度和召回率的調和平均。我們選取了11萬條帶有標簽的微博數據,隨機選取其中的1萬條作為測試。實驗結果表明雙通道模型的F值達到了40%,這是相當不錯的結果。
微博用戶行為建模僅僅考慮微博本身內容是不夠充分的,之前關于標簽推薦的研究工作主要只利用了微博本身的信息,未充分考慮微博作者的興趣特點。一個作者的興趣點是有限的,發文范圍也是有限的。標簽也是用戶的興趣體現,所以兩者也是緊密相關的。用戶興趣點可以從用戶歷史微博挖掘。我們采用記憶神經網絡存儲用戶的歷史微博。記憶神經網絡通過引入一個外部儲存器來對數據進行長時儲存、檢索與更新,已經被成功應用到不同的自然語言處理任務中。我們提出的層次記憶網絡模型將用戶歷史發文儲存在外部記憶儲存單元,利用層次化注意力機制構建用戶歷史興趣,輔助標簽推薦。記憶的查找過程中采用層次式的方式,首先考慮詞級別的相似程度,然后考慮句子級別的相似程度,之后獲得用戶興趣的表示,再和當前這條微博的表示進行匹配,從中可以發現當前微博中哪些詞適合表征用戶的興趣和微博的內容,并選擇作為標簽。實驗結果表明,記憶神經網絡獲得的精度和召回率都比僅考慮內容的模型有所提高。
接下來考慮艾特用戶推薦。在一些社交媒體,如Twitter、Facebook或微博中,用戶會發表推文并“@”他們的朋友或者名人,借以宣傳產品, 參與話題討論, 吸引注意力, 求助等。如何在發布微博的時候推薦合適的用戶?我們也采用神經網絡方法,綜合微博內容、歷史、作者、興趣等信息,在記憶模塊記錄用戶興趣和潛在可艾特的用戶。在推薦艾特用戶的時候,要考慮到用戶發帖的歷史,因此我們把用戶發布的微博歷史存于記憶網絡。同時用另外一個記憶模型存儲艾特用戶的發帖歷史,表明他們對什么事件關注。如果用戶發布的微博和艾特用戶發布的微博類似,說明他們可能關心同一個領域或事件,艾特給這樣的用戶就有可能得到正面的反饋。實驗結果表明,艾特用戶的推薦能夠達到80%以上的精度,推薦結果比微博標簽的結果高很多。這里的原因也是顯而易見的,因為用戶寫微博的時候,選擇哪些關鍵詞是一個開放集合,甚至是微博原文中沒出現的詞語,不太好做非常精確的判斷;當艾特用戶的時候,潛在的對象是個有限集,至少必須擁有微博賬號,所以就相對精確些。
接下來介紹如何預測用戶的轉發行為。普通用戶,即使以信息檢索領域國際專家酒井為例,他發布的帖子經常只有幾人轉發。另一位用戶,發了個帖子,只有一句話“給一起長大的你們”,就被轉發一百多萬次,原因是因為他是明星鹿晗。所以微博是否會被轉發不僅取決于微博本身的內容是否精彩,是否會引起別人興趣,也取決于發布微博的用戶是誰。為了預測用戶轉發行為,我們選擇200個用戶作為第一層種子節點,轉發帖子的8萬個用戶作為第二層節點,構建了含有8千多萬條微博的數據集。我們采取的方法也還是雙通道神經網絡方法,通過基于注意力的神經網絡對用戶歷史微博進行建模,通過神經網絡計算用戶興趣點以及待預測的目標微博之間的相似度。結合用戶、用戶歷史興趣點、興趣點與微博內容的相似度、待預測的微博內容、待預測微博的作者等信息對轉發行為進行預測。根據這樣的一個模型,我們在精度、召回率和F值都達到70%以上性能,相當不錯。我們還注意到,偶爾轉發微博的用戶不太愿意轉發,但是對于經常轉發微博的用戶,我們能夠做出更加精確的估計。
下面一塊工作關注于用戶話題預測問題的研究。我們想要預測在一些社交媒體,如Twitter、Facebook或微博中,哪一些話題是一個用戶會去參與的。和別的一些微博推薦任務、熱點檢測任務不同的是,在這個任務中,我們關注的是預測用戶和話題之間的關系。因此,我們將其轉換成了匹配問題,并提出了一種匹配模型去解決它。我們提出了一個高效的基于卷積神經網的網絡模型,并且在模型中引入了記憶儲存器,利用注意力機制進行更好的匹配建模。在這個框架中,用戶發文興趣、用戶話題參與歷史兩種信息被充分利用,分別和話題相關的文本等信息進行興趣匹配建模。為了訓練與評估我們的模型,我們利用Twitter構建了一個超過一千四百萬條tweets的數據集,并對比了多種推薦方法,實驗結果表明我們的模型在該任務上都比之前的方法取得了很大的提升。
除了以上的推薦任務,我們還關注對于多模態推文的推薦。如一個用戶發布了關于mac的微博,如果只看作者的推文,我們可能誤以為作者買了一臺MAC電腦,但結合了圖片的信息,我們可以知道,作者其實是買了一個MAC化妝品牌的口紅。為了處理多模態信息,我們將其轉換成了匹配問題,并提出了一種匹配模型去解決。我們在模型中引入了記憶儲存器,利用注意力機制進行更好的匹配建模。在匹配框架中利用了用戶多模態歷史發文和作者多模態歷史發文兩種信息,分別和待進行艾特推薦的多模態推文進行興趣匹配建模。實驗結果表明多模態信息能更好地提高艾特推薦的效率,并且我們的模型在該任務上都比之前的方法取得了很大的提升。
我們還可以綜合利用推文中文字跟圖片信息去判斷某個用戶是不是有抑郁傾向。比如某個用戶發了條微博,文字內容是“每個人這么快樂,看上去很快樂”,但她配了張很抑郁的圖片。我們在做抑郁檢測的時候,不僅要看用戶說了什么,還要看她發了什么樣的圖片。我們所提出的模型也是考慮到多模態信息,一個通道是文字信息,另一個通道是圖片信息,結合文字跟圖片,取得了較為滿意的預測精度。
經常有人跟我探討,女性是不是適合做人工智能,是不是適合做深度學習。實際上有些女性對于研究深度學習有一定壓力,因為有很多數學公示要推導,需要寫很多代碼。但實際上我們有很多開源工具可以使用,對于編程能力要求并不是非常高,數學方面,像梯度計算、優化計算都可以用開源工具來做。所以我們女性不要有太大壓力。另一方面,我們也有自己的優點。女性非常細致和敏感,會很細致地去發現和分析問題,會很細致地研究實驗結果,然后去看這個結果中間有什么是我們所不滿意的,分析錯誤可能來源于什么地方。女性的語文文字能力和表達也有優勢。也因此,在人工智能領域,活躍著許多女科學工作者,也有了咱們今天的人工智能女科技工作者專題論壇。
-
人工智能
+關注
關注
1796文章
47643瀏覽量
240223 -
異構網絡
+關注
關注
0文章
19瀏覽量
9252 -
深度學習
+關注
關注
73文章
5512瀏覽量
121521
原文標題:CIIS2018演講實錄丨黃萱菁:基于深度學習的智能社會媒體挖掘
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論