6月23-24日,知乎在798舉辦了一場“陰陽怪氣”主題書法展,現場不僅有陰陽怪氣粉碎機、“瓦力”實驗室等精彩互動,知乎社區治理團隊也首次亮相,分享了知乎在識別“陰陽怪氣”類內容上的探索。
據了解,知乎還將在近期對該技術進行產品化嘗試,向用戶提供“瓦力”陰陽怪氣智能過濾選項,同時,還將對“瓦力”進行更多訓練,不斷提升準確率和召回率,最終將陰陽怪氣識別技術全面應用到社區治理中。
三大算法模型引領,突圍復雜網絡語言分析困境
目前,知乎借助AI技術,并輔以人機結合和多元的產品舉措,多重手段加強對社區氛圍的維護。現階段,知乎已實現對95%以上的違法違規、廣告導流和不友善等內容的主動打擊、覆蓋和篩查 。
知乎運營總監孫達云表示, 過去一年,知乎全力探索對陰陽怪氣類評論的解決方案。陰陽怪氣可用“杠精”這個詞來指代,通常以“不針對發言內容,而是批評對方的語氣”以及“提出反對意見,但不給或給出極少數論據支持”這兩類常見言論為代表,此類評論極大了傷害創作者和交流者的體驗,但難以解決。
解決陰陽怪氣類評論的難點核心主要在于網絡語言的復雜性,情感分析不同于普通文本分析,例如經典的“呵呵”,由于雙方不同關系、說話的不同場景和時間都會帶來迥然不同的表意。即便是人工判定都存在標準化難度,算法模型的訓練挑戰就更為艱辛。
知乎團隊的不懈努力下,針對陰陽怪氣評論通常表達負面情感的特點,知乎構建了內容情感傾向性識別的算法模型和識別用戶親密度的模型,并通過訓練不斷迭代完善。
此外,針對陰陽怪氣評論的典型特征,知乎建立了文本識別模型不斷標記訓練樣本。三大模型的結合,不僅擺脫單一算法模型的局限性,也讓“瓦力”的陰陽怪氣識別準確率超過了大多數人工判斷。
持續迭代技術方案 攻克情感分析前沿難題
知乎內容質量管理團隊技術負責人劉兆來則詳細介紹了“瓦力”最新的陰陽怪氣技術方案:首先通過知乎社區里的舉報、反對等負向用戶行為收集訓練數據。然后通過各種同義替換、規則模版方式對訓練數據進行擴展,以緩解訓練數據稀疏的問題。
同時,“瓦力”提取文本、句法、表情符等特征,并利用一個帶attention的CNN和LSTM的融合模型進行分類,最終判斷出內容是否為陰陽怪氣。
優化技術方案后,“瓦力”已能實現對“暗藏玄機夸獎”(忍不住關注答主了,你的答案很有水平!你博士快畢業了吧!)、“好為人師”(我覺得你挺慘,雖然長這么大了,還真應該回小學改造)、“強行反駁”(你開心就好、請開始你的表演)等數類陰陽怪氣內容的識別。而根據知乎社區治理團隊的調查,用戶最反感的陰陽怪氣言論大多屬于這些類型,這意味著,“瓦力”在處理網絡言語暴力上取得了階段性進展。
劉兆來表示,未來將不斷優化“瓦力”的識別能力,提高模型泛化能力,同時不斷迭代更新模型,緊跟學術前沿的同時,適應網絡語言的變化潮流。
知乎著力陰陽怪氣識別技術,正是知乎“認真、專業、友善”社區精神的一次直觀體現和有力踐行。日益強大的“瓦力”已能實時解決答非所問、辱罵、貼標簽等不友善問題,而人機結合的社區治理方式,以及用戶深度參與社區自治,更讓歧視、謠言八卦、愚昧偏見等內容在知乎難以找到立足之地。
-
AI算法
+關注
關注
0文章
252瀏覽量
12293 -
ai技術
+關注
關注
1文章
1281瀏覽量
24351
原文標題:GGAI 前沿 | 知乎優化AI算法“瓦力” 挑戰“陰陽怪氣”難題
文章出處:【微信號:ggservicerobot,微信公眾號:高工智能未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論