社交媒體在給人們帶來便利的同時,也成為虛假新聞恣意傳播的渠道,如果不及時發(fā)現(xiàn)遏止,極易引發(fā)群眾恐慌,激起社會動蕩。因此,探索準(zhǔn)確高效的虛假新聞檢測技術(shù)具有極高的理論價值和現(xiàn)實意義。
本文對虛假新聞相關(guān)檢測技術(shù)做了全面綜述。首先,對多模態(tài)虛假新聞的相關(guān)概念進(jìn)行了整理和歸納,并分析了單模態(tài)和多模態(tài)新聞數(shù)據(jù)集的變化趨勢。其次,介紹了基于機器學(xué)習(xí)和深度學(xué)習(xí)的單模態(tài)虛假新聞檢測技術(shù),這些技術(shù)在虛假新聞檢測領(lǐng)域已被廣泛應(yīng)用,而由于虛假新聞通常包含多種數(shù)據(jù)表現(xiàn)形式,這些傳統(tǒng)的單模態(tài)技術(shù)無法充分挖掘虛假新聞的深層邏輯,因此無法有效地應(yīng)對多模態(tài)虛假新聞數(shù)據(jù)帶來的挑戰(zhàn)。針對此問題,對近些年來先進(jìn)的多模態(tài)虛假新聞檢測技術(shù)進(jìn)行了整理,從多流架構(gòu)和圖架構(gòu)的角度歸納和論述了這些多模態(tài)檢測的技術(shù)方法,探討了這些技術(shù)的思想理念與潛在缺陷。最后,分析了目前虛假新聞檢測研究領(lǐng)域存在的困難和瓶頸,并由此給出未來的研究方向。
http://fcst.ceaj.org/CN/abstract/abstract3314.shtml
概述
社交平臺的信息傳播具有低成本、高效率、實時便捷等特點,這些便利為新聞在社區(qū)廣泛傳播提供了可能,然而,信息發(fā)布和擴(kuò)散的同時也導(dǎo)致了社交網(wǎng)絡(luò)上虛假新聞的恣意橫行。據(jù) 2019年 CHEQ 和巴爾的摩大學(xué)的經(jīng)濟(jì)研究報道[1],全球每年因虛假新聞造成的損失高達(dá) 780 億美元。2020 年 7 月,江蘇南京一小區(qū)發(fā)生外賣被盜事件,據(jù)警方了解,該偷盜居民涉嫌多次盜竊,目前已被刑拘。事發(fā)后三天內(nèi),眾多網(wǎng)絡(luò)媒體發(fā)布新聞,稱當(dāng)事人為考研大學(xué)生,報道中還出現(xiàn)了“為供其深造,家中其他 3個兄弟姐妹輟學(xué)”等說法。7 月 20 日下午,警方發(fā)布通報:嫌疑人李某某大學(xué)畢業(yè)已兩年,目前有固定收入,其偷外賣的原因,是一次外賣被人拿走后,產(chǎn)生了報復(fù)心理。目前,嫌疑人李某某已被取保候?qū)彙@钅衬掣改负痛蠼阍诶霞覄?wù)農(nóng),二姐、三姐分別在北京、海南工作。換言之,“考研大學(xué)生”這一身份是虛假信息,李某某的家庭并不貧困,偷外賣也并非為了維持生活,如圖1(a)、圖 1(b)所示。不良媒體通過散播這些假新聞激起群眾的同情,以此獲取流量、關(guān)注,直到官方辟謠,這些虛假新聞才得以遏止。由此可見,虛假新聞已經(jīng)成為大量不良媒體獲取非法利益的工具,它們的存在會加強人們之間的不信任關(guān)系,造成不良的社會影響。因此,探索準(zhǔn)確高效的虛假新聞檢測方法尤為重要。對于虛假新聞,新聞文字源于圖片的惡意編造,其描述的內(nèi)容必然與圖像真實內(nèi)容存在沖突,即模態(tài)之間存在語義不一致性,如果單從圖片或者文字角度分析,這種語義不一致性很難被模型識別,容易導(dǎo)致模型分類錯誤,因此,從多模態(tài)的角度探索虛假新聞檢測技術(shù)很有必要。
縱觀這些年關(guān)于虛假新聞檢測的綜述文章,很少有從多模態(tài)角度來分析的。早期研究者們致力于尋找和構(gòu)建人工特征來表示新聞內(nèi)容,這時的綜述內(nèi)容大多是關(guān)于這些特征的歸納整理[2-3],后來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,學(xué)者們將研究重心放在了這種自動化特征提取技術(shù)上,其中涌現(xiàn)了大批基于深度學(xué)習(xí)的虛假新聞檢測文章,近些年來,一部分學(xué)者對這些方法進(jìn)行了總結(jié)[4- 5]。然而,這些文章的研究角度存在局限,并沒有考慮到虛假新聞中的其他模態(tài)。有研究發(fā)現(xiàn)[6- 7],新聞的視覺內(nèi)容是能誤導(dǎo)讀者的關(guān)鍵因素。此外,新聞社交圖中蘊含的虛假新聞傳播信息是檢測取得成功的重要因素[8],因此從多模態(tài)的視角分析新聞很有必要。針對此,本文詳盡地梳理了以往虛假新聞檢測領(lǐng)域的一些工作,從單模態(tài)到多模態(tài)的角度對該領(lǐng)域做全面的整理和綜述。本文的貢獻(xiàn)如下:
(1)詳盡地從單模態(tài)到多模態(tài)角度對虛假新聞檢測領(lǐng)域相關(guān)技術(shù)做了歸納和整理;(2)將基于新聞社交圖的檢測技術(shù)作為一種特殊的多模態(tài)處理方法,并對其最新技術(shù)的研究現(xiàn)狀做了補充和完善;(3)梳理了現(xiàn)有虛假新聞檢測技術(shù)存在的研究瓶頸,并給出了未來研究方向。
多模態(tài)虛假新聞檢測技術(shù)
不同形式的信息源可以看成不同的模態(tài)[51],新聞是典型的多模態(tài)數(shù)據(jù),書面報道的新聞通常包含圖片和文本兩種模態(tài)信息,短視頻新聞至少包含圖像、音頻和字幕等多模態(tài)信息,新聞社交圖中包含新聞內(nèi)容以及新聞行為等多種模態(tài)信息。多模態(tài)虛假新聞檢測技術(shù)的關(guān)鍵是如何構(gòu)建模型框架學(xué)習(xí)新聞數(shù)據(jù)的多模態(tài)信息,以提升虛假新聞檢測性能。總結(jié)至今提出的一些文章,大致可以劃分為兩類:基于流形式的多模態(tài)虛假新聞檢測技術(shù)和基于圖形式的多模態(tài)虛假新聞檢測技術(shù)。
基于流形式的虛假新聞檢測技術(shù)
基于單流架構(gòu)的技術(shù)
單流架構(gòu)指在模型輸入之前,不同模態(tài)數(shù)據(jù)的初級特征會通過拼接、函數(shù)映射等方式進(jìn)行數(shù)據(jù)融合,得到的多模態(tài)特征內(nèi)部中各個模態(tài)的信息是獨立的,而多模態(tài)信息需要在后續(xù)模型中學(xué)習(xí)。最具代表性的是基于 Transformer 架構(gòu)的多模態(tài)模型,如ViLT(vision-and-language transformer)[52]、MBT(multimodal bottleneck transformer)[53]等,各模態(tài)的數(shù)據(jù)會預(yù)處理為序列化數(shù)據(jù),例如,文本會轉(zhuǎn)化為多個 token組成的序列,圖片會轉(zhuǎn)化為多個不重疊的圖片 patch序列,音頻數(shù)據(jù)會先轉(zhuǎn)化為頻譜圖,最終組成多個不重疊的頻譜圖 patch 序列,多個模態(tài)的特征最終會進(jìn)行拼接,構(gòu)成模型的多模態(tài)輸入特征,單流架構(gòu)框架如圖 2所示。
目前,單流架構(gòu)模型在視頻分類、情感分析、圖像生成等多模態(tài)領(lǐng)域中得以廣泛應(yīng)用,單流模型具有結(jié)構(gòu)簡單、容易實現(xiàn)、高準(zhǔn)確率等優(yōu)勢,在虛假新聞檢測領(lǐng)域中,是一個極具潛力的研究方向。但參考目前的一些研究,其也存在一些缺陷:(1)在網(wǎng)絡(luò)訓(xùn)練時需要花費更多的迭代次數(shù)才能獲得好的多模態(tài)表示;(2)由于模型的輸入特征通常是多個模態(tài)特征拼接而成,模型有較高的計算復(fù)雜度;(3)單流模型的學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)集,而在虛假新聞檢測領(lǐng)域中,目前沒有足夠多可以訓(xùn)練的數(shù)據(jù)。
基于多流架構(gòu)的技術(shù)
近些年來,關(guān)于多模態(tài)虛假新聞檢測領(lǐng)域,研究者們更常用的是基于多流架構(gòu)的技術(shù)。多流架構(gòu)是指根據(jù)不同模態(tài)數(shù)據(jù)設(shè)計不同模型提取模態(tài)高級特征,從各個模態(tài)高級特征中學(xué)習(xí)多模態(tài)特征并輸入下游的分類器中預(yù)測各個類別的概率。相比單流架構(gòu),多流架構(gòu)更加靈活,其可以針對不同模態(tài)數(shù)據(jù)單獨設(shè)計模型提取模態(tài)特征。多流框架如圖 3所示。
基于圖形式的虛假新聞檢測方法
社會性是新聞的基本特性之一,新聞數(shù)據(jù)可以表示為新聞和新聞受眾互動的社交網(wǎng)絡(luò)圖,新聞社交網(wǎng)絡(luò)圖包含了新聞文章、評論等純文本數(shù)據(jù),也包含了節(jié)點、連邊等關(guān)系型數(shù)據(jù),這些不同形式數(shù)據(jù)組成的圖可以看作特殊的多模態(tài)數(shù)據(jù)。本節(jié)主要綜述基于新聞社交圖的虛假新聞檢測技術(shù),其大致可以包含兩類:基于圖機器學(xué)習(xí)的技術(shù)和基于圖神經(jīng)網(wǎng)絡(luò)的技術(shù)。
基于圖機器學(xué)習(xí)的技術(shù)虛假信息的傳播主要包含三種因素[71]:一是新聞內(nèi)容的合理性;二是傳播者的個性以及可信度;三是傳播網(wǎng)絡(luò)的同質(zhì)性。基于以上因素,研究者根據(jù)新聞內(nèi)容和社交信息建立了不同的新聞社交圖,如新聞傳播樹、新聞立場網(wǎng)絡(luò)等,以探究虛假新聞的傳播模式。傳播樹代表了在社交媒體上新聞文章的發(fā)帖和轉(zhuǎn)發(fā)之間的關(guān)系。Wu等人[72]將消息傳播模式描述為樹結(jié)構(gòu)的關(guān)系,傳播樹不僅能反映轉(zhuǎn)發(fā)者與作者之間的關(guān)系,還能反映轉(zhuǎn)發(fā)者的即時行為和情感。其次,Ma 等人[13]分別構(gòu)建了真新聞和假新聞的消息傳播樹,利用真新聞和假新聞存在的不同傳播模式,計算兩棵傳播樹之間的子結(jié)構(gòu)的相似性,實驗證明該方法可以有效幫助檢測假新聞。
立場網(wǎng)絡(luò)的節(jié)點表示新聞和帖子,邊表示帖子與帖子之間的支持和反對關(guān)系。利用立場網(wǎng)絡(luò)進(jìn)行虛假新聞檢測,即檢測與某新聞相關(guān)帖子的可信度,可信度越低,代表該新聞是假新聞的可能性越大。在新聞的傳播中,有學(xué)者發(fā)現(xiàn)[73],可以通過用戶分享的觀點、猜測和證據(jù)來自我糾正一些不正確的信息。如圖 5 所示,圖 5(a)表示虛假新聞的立場網(wǎng)絡(luò),圖 5(b)表示真實新聞的立場網(wǎng)絡(luò)。此外,有學(xué)者對假新聞傳播樹和立場網(wǎng)絡(luò)進(jìn)行綜合分析。Davoudi等人[74]提出了一種包含動態(tài)分析、靜態(tài)分析和結(jié)構(gòu)分析三個結(jié)構(gòu)的檢測框架。其分別使用循環(huán)神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)和 Node2Vec 學(xué)習(xí)傳播樹和立場網(wǎng)絡(luò)隨時間的演化模式、檢測結(jié)束時傳播樹和立場網(wǎng)絡(luò)的整體特征以及傳播樹和立場網(wǎng)絡(luò)的結(jié)構(gòu)特征,最終匯總?cè)齻€結(jié)構(gòu)的輸出完成虛假新聞的檢測。
基于圖神經(jīng)網(wǎng)絡(luò)的技術(shù)
近年來,研究者們借鑒了卷積網(wǎng)絡(luò)、循環(huán)網(wǎng)絡(luò)和深度自編碼器的思想,設(shè)計了可以用于處理圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——“圖神經(jīng)網(wǎng)絡(luò)”[76]。該技術(shù)在處理圖關(guān)系數(shù)據(jù)時有獨特的優(yōu)勢,而虛假新聞的散布和傳播是以圖形式實現(xiàn)的,圖中節(jié)點表示與新聞相關(guān)的實體信息,而連邊表示不同實體之間的聯(lián)系。新聞社交傳播圖如圖6所示。
圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)是借用卷積網(wǎng)絡(luò)的思想處理圖數(shù)據(jù)而提出的一種圖神經(jīng)網(wǎng)絡(luò)模型,其核心思想是學(xué)習(xí)一個映射函數(shù),對于圖中的一個節(jié)點,聚合該節(jié)點的特征和鄰居節(jié)點的特征來生成該節(jié)點的新表示。Chandra等人[78]提出的 SAFER(socially aware fake news detection framework)模型使用 GCN 來獲取具有用戶信息的新聞表示,然而他們構(gòu)建的是同質(zhì)圖網(wǎng)絡(luò),會導(dǎo)致信息丟失問題。在此基礎(chǔ)上,Wang等人[79]以新聞文本、圖片和知識概念為節(jié)點構(gòu)建異質(zhì)圖,一定程度上緩解了該問題。此外,Bian等人[80]從新聞的傳播深度和散布廣度兩個角度研究虛假新聞的擴(kuò)散模式,如圖 7 所示,他們提出了雙向圖卷積神經(jīng)網(wǎng)絡(luò),從自上而下和自下而上兩個方向分別獲取虛假新聞傳播和散布的模式,最終的實驗結(jié)果證明該方法的有效性。
總的來說,基于圖形式的虛假新聞檢測方法具有準(zhǔn)確率高、靈活性強等優(yōu)點,可以識別影響虛假信息傳播的重要節(jié)點,為模型提供了一定的可解釋能力。但也存在一些問題,如新聞社交圖需要事先人為構(gòu)建,當(dāng)與新聞相關(guān)的實體數(shù)量太多時,需要花費大量時間,有時還可能錯漏關(guān)鍵實體信息;其次,圖的訓(xùn)練需要花費大量時間,對硬件的需要較大;此外,涉及時間因素的圖檢測技術(shù)仍然發(fā)展不完善。
結(jié)論
在互聯(lián)網(wǎng)時代下,如何在海量的新聞中準(zhǔn)確高效地識別虛假信息成為了國際關(guān)心的熱點話題。經(jīng)過多年的研究探索,虛假新聞檢測技術(shù)已經(jīng)從早期的人工檢測發(fā)展成如今的自動化檢測,基于機器學(xué)習(xí)的人工特征提取轉(zhuǎn)變?yōu)槿缃竦纳疃葘W(xué)習(xí)自動特征提取,對新聞單一對象的檢測方法演變?yōu)橛脩籼卣鳌⑽谋尽D片、視頻特征以及傳播特征等多模態(tài)聯(lián)合的檢測方法。
本文對虛假新聞檢測研究相關(guān)理論進(jìn)行了整理,從單模態(tài)到多模態(tài)角度對虛假新聞檢測數(shù)據(jù)集與相關(guān)技術(shù)做了全面的綜述,并對現(xiàn)有研究中存在的缺陷做了歸納整理,最后給出該領(lǐng)域存在的問題以及以后的研究方向。本文不僅對后來的學(xué)者們有借鑒作用,而且還對專業(yè)媒體平臺應(yīng)對虛假新聞沖擊提供重要的實際應(yīng)用價值。
-
檢測技術(shù)
+關(guān)注
關(guān)注
2文章
355瀏覽量
29079 -
模型
+關(guān)注
關(guān)注
1文章
3248瀏覽量
48859 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121187
原文標(biāo)題:基于多模態(tài)學(xué)習(xí)的虛假新聞檢測研究
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論