在闺蜜旁边高h,艳妇诱春h高h丽春院头牌,夜栋病勤1一12在线观看

流言止于智者，聊天止于呵呵。

在 2013 年之前，“呵呵”還只是呵呵，然而風(fēng)云突變，這個一直被用作表達(dá)禮貌、微笑的詞匯，卻在 2013 年被網(wǎng)友評選為年度最傷人聊天詞匯。如果以前的“呵呵”是尷尬而不失禮貌的微笑，現(xiàn)在則是充滿嘲諷和攻擊性的一個詞。

時間來到 2018 年，互聯(lián)網(wǎng)上最讓討厭的已經(jīng)不再只有噴子，各種陰陽怪氣的言論，比如“呵呵”，比如“你開心就好”，簡直讓人渾身難受，這種喜歡抬杠的人我們稱之為“杠精”。

互聯(lián)網(wǎng)在進(jìn)化，互聯(lián)網(wǎng)的語言也在進(jìn)化，互聯(lián)網(wǎng)的監(jiān)管技術(shù)也在進(jìn)化。在這場很難設(shè)定邊界的對抗中，知乎已經(jīng)率先向杠精開戰(zhàn)。

▌什么是陰陽怪氣？

想要對抗陰陽怪氣，首先就要給它下一個準(zhǔn)確的定義，然而這十分困難。

YC 聯(lián)合創(chuàng)始人保羅·格雷厄姆將人跟人之間的意見不統(tǒng)一、反對、沖突分成了七個層級，叫 Disagreement Hierarchy（以下簡稱 DH 值），如下圖所示：

陰陽怪氣可用“杠精”這個詞來指代，通常以“不針對發(fā)言內(nèi)容，而是批評對方的語氣”以及“提出反對意見，但不給或給出極少數(shù)論據(jù)支持”這兩類常見言論為代表，此類評論極大了傷害創(chuàng)作者和交流者的體驗，但難以解決。

——以上是知乎給出的定義。

當(dāng)然，也有一些具體的例子，比如：呵呵，你厲害，你咋不上天呢，自以為是的人等等。而根據(jù)知乎 6 月的最新統(tǒng)計數(shù)據(jù)，被知友們踩過次數(shù)最多的 Top 10 評論有下面幾種：

那你可真是夠棒的！

你還是省省吧！

你開心就好。

相信大部分讀者都對這些言論都非常熟悉，而且記憶猶深，畢竟被抬杠并不是一種好的體驗。知乎給出的解決方案是：「陰陽怪氣」等嚴(yán)重影響大家討論體驗的評論，作者可以「一鍵折疊」，其他知友也可以點「踩」，當(dāng)被踩評論的分值達(dá)到一定閾值后，評論會被自動折疊。

除了依靠用戶的自發(fā)行為之外，知乎也在嘗試?yán)?a target="_blank">算法來識別陰陽怪氣的言論。

▌如何對抗陰陽怪氣？

作為知乎的“當(dāng)家機(jī)器人”，瓦力算法除了作用于社區(qū)內(nèi)的不友善、答非所問以及低質(zhì)提問等內(nèi)容外，最近也正在優(yōu)化識別陰陽怪氣類內(nèi)容的模型。

根據(jù)知乎內(nèi)容質(zhì)量團(tuán)隊技術(shù)負(fù)責(zé)人劉兆來的說法，“瓦力已經(jīng)產(chǎn)品化很久了，過去通過關(guān)鍵詞和不友善文本識別模型，可以處理辱罵類的文本；目前，我們希望通過對陰陽怪氣類的杠精性質(zhì)評論進(jìn)行處理，提升用戶體驗。”

劉兆來詳細(xì)介紹了“瓦力”最新的陰陽怪氣技術(shù)方案：首先通過知乎社區(qū)里的舉報、反對等負(fù)向用戶行為收集訓(xùn)練數(shù)據(jù)。然后通過各種同義詞替換、規(guī)則模版方式對訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展，以緩解訓(xùn)練數(shù)據(jù)不足的問題。同時，“瓦力”提取文本、句法、表情符等特征，并利用一個帶 attention 的 CNN 和 LSTM 的融合模型進(jìn)行分類，最終判斷出內(nèi)容是否為陰陽怪氣。

具體來說，可以分為以下幾個步驟：

首先，進(jìn)行數(shù)據(jù)增強(qiáng)，以提升模型的泛化能力；

數(shù)據(jù)增強(qiáng)是為了提升模型在大量數(shù)據(jù)上的泛化能力。在這方面，知乎進(jìn)行了兩種嘗試：提取陰陽怪氣關(guān)鍵詞做替換，比如同音異字變換，洗地黨→洗滌黨，真的很惡心 → 震得很惡心；此外，知乎也利用提取出的陰陽怪氣關(guān)鍵樣本，隨機(jī)構(gòu)造評論上文與評論。

其次，提取相關(guān)數(shù)據(jù)特征，利用卷積網(wǎng)絡(luò)以及人工特征等來獲得更多更詳細(xì)的特征；

特征構(gòu)建層方面，知乎從文本特征、數(shù)值特征、陰陽怪氣詞以及表情詞著手。文本特征即文本加入陰陽怪氣關(guān)鍵詞進(jìn)行分詞后，保留標(biāo)點，表情等；數(shù)值特征即句子長度，句號數(shù)量，感嘆號數(shù)據(jù)等；陰陽怪氣詞即提取社區(qū)內(nèi)被踩過很多次的表示陰陽怪氣關(guān)鍵詞；表情特征：劃分正負(fù)樣本表情。

最后，將提取出的特征輸入分類器。

特征學(xué)習(xí)層方面，主要考慮了評論和上文的文本特征，包括字，詞，標(biāo)點，表情符號等，并利用知乎全量數(shù)據(jù)訓(xùn)練 word2vec 模型。知乎將評論上文與評論經(jīng)過 embedding 層后分成兩個金字塔型 CNN 網(wǎng)絡(luò)，目的是訓(xùn)練各自獨(dú)立的參數(shù)，知乎采取 CNN 網(wǎng)絡(luò)是因為 CNN 卷積可以捕獲字詞的位置關(guān)系也可以比較有效的提取特征。

除上述文本特征外，知乎也充分考慮了其它特征，比如評論長度，評論中句號，問號等標(biāo)點的個數(shù)，評論中是否包含陰陽怪氣關(guān)鍵詞等；這些特征離散化后，與評論的卷積提取特征進(jìn)行拼接，最后與評論上文的卷積輸出進(jìn)行 dot-attention 目的是獲取評論上文與評論不同的權(quán)重。最后，知乎將特征數(shù)據(jù)全連接層以 softmax 方式進(jìn)行了分類。

至于這個模型對陰陽怪氣的效果如何，知乎運(yùn)營總監(jiān)孫達(dá)云表示，其準(zhǔn)確率比大部分人工判斷還要準(zhǔn)。

▌難點在哪里？

然而，機(jī)器并不是總能解決所有問題，很多時候人工智能會表現(xiàn)的像人工智障。這一點，知乎自己也承認(rèn)，特別是在理解人類語言這一領(lǐng)域。

上圖是劉兆來列舉的一些算法漏識別和誤識別的情況：

通過分析這些 bad case，現(xiàn)代模型主要受限于訓(xùn)練數(shù)據(jù)。一方面是訓(xùn)練數(shù)據(jù)的覆蓋范圍不夠廣，所以一些不是很常見的詞語，模型就會識別不出來。比如算法漏識別里的第二條，這些詞在訓(xùn)練里面比較少，甚至在模型里面沒有這些詞，所以模型會識別錯誤。

第二個類型的錯誤，模型過渡彌合了一些數(shù)據(jù)，比如前面兩條比較明顯。第一條就是因為我們加入了一些標(biāo)點符號數(shù)據(jù)特征，可能在訓(xùn)練數(shù)據(jù)里面有連續(xù)兩個問號這種屬于陰陽怪氣的概率比較高。第二個，“哈哈哈”可能在陰陽怪氣的樣本里面比較多，所以模型會把這兩個特征作為是不是陰陽怪氣比較重要的根據(jù)，就會導(dǎo)致誤判。

反諷本身是情感分析領(lǐng)域的一個傳統(tǒng)難題，在孫達(dá)云看來，“解決陰陽怪氣類評論的難點核心主要在于網(wǎng)絡(luò)語言的復(fù)雜性，情感分析不同于普通文本分析，例如經(jīng)典的‘呵呵’，由于雙方不同關(guān)系、說話的不同場景和時間都會帶來迥然不同的表意。即便是人工判定都存在標(biāo)準(zhǔn)化難度，算法模型的訓(xùn)練挑戰(zhàn)就更為艱辛。”

總的來說，這項艱巨的任務(wù)的難點主要在于以下幾點：

需要基于上下文理解深層語義

需要了解某些背景知識

訓(xùn)練樣本難獲取

……

面對這些問題，劉兆來介紹未來的工作重點：

訓(xùn)練數(shù)據(jù)獲取。因為訓(xùn)練數(shù)據(jù)標(biāo)注特別困難，后邊會通過主動學(xué)習(xí)（ActiveLearning）來減少樣本標(biāo)注的時間和工作量。

語義分析。首先會嘗試加入詞語的褒貶樣本，就是一些諧音語句；第二個就是在詞表征方面，會嘗試 ELMO 的算法，最近 ELMO 詞向量在多個 NLP 任務(wù)能取得提升，ELMO 詞向量利用雙向 LSTM 訓(xùn)練獲得，可以捕獲上下文信息以及更深層的語義；還有就是嘗試比較復(fù)雜的模型。

背景知識。不同領(lǐng)域會有一些用詞的區(qū)別，未來會對于體育、明星等領(lǐng)域分別建立模型。

▌AI 的邊界？

人工智能是建立在人類標(biāo)準(zhǔn)之上的，它代表的也是人類的價值觀。然而，人們對“陰陽怪氣”的定義仍然模糊，不同的人針對同一個評論也會有很大的分歧。知乎在做的，就是找到社區(qū)的最大公約數(shù)。

不同的人對于同一個內(nèi)容會有不同的判斷，這個沒有問題，但是如果絕大多數(shù)人都認(rèn)為這條評論內(nèi)容是不禮貌的，它是冒犯性的，我們就需要對這條內(nèi)容進(jìn)行標(biāo)記、進(jìn)行干預(yù)，我們通過算法訓(xùn)練已經(jīng)無限接近了最大公約數(shù)的概念。

人類可以接受人類犯錯，但是很難接受機(jī)器犯錯，特別是在機(jī)器做的還沒有人類好的情況下。此外，用人工智能去管理人類，其實是很大冒險。有知友表示，“把社區(qū)越多的控制權(quán)交給社區(qū)，其實越會導(dǎo)致社區(qū)畸形，這是人性問題，不能通過人工智能解決。”

戴維·溫伯格在《知識的邊界》一書里寫道：知識的網(wǎng)絡(luò)化正在對知識的本質(zhì)以及長形式思考在其中發(fā)揮的作用，帶來一些根本性的變化。如果書籍告訴我們，知識是從 A 到 Z 的漫長旅程，那么網(wǎng)絡(luò)化的知識可能會告訴我們，世界并非是一個邏輯嚴(yán)密的論證，而更像是一個無定形的、相互交織的、不可掌控的大網(wǎng)。

人類掌控不了的就寄希望于人工智能，于是我們努力去拓展 AI 的邊界。至于它最終會不會讓我們失望？這就需要留給時間去驗證了。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

互聯(lián)網(wǎng)

互聯(lián)網(wǎng)

+關(guān)注

關(guān)注
54

文章
11184

瀏覽量
103787
人工智能

人工智能

+關(guān)注

關(guān)注
1796

文章
47643

瀏覽量
240078

原文標(biāo)題：呵呵，你開心就好！——AI向杠精宣戰(zhàn)

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聯(lián)想將進(jìn)軍互聯(lián)網(wǎng)

豐富的移動互聯(lián)網(wǎng)終端，包括個人電腦、互聯(lián)網(wǎng)手機(jī)、平板電腦等。　　“在互聯(lián)網(wǎng)電視上，我們已經(jīng)做了很長時間的研究和開發(fā)，相信用戶不會等太久。希望通過與百視通的合作，在用戶所經(jīng)常接觸信息的四

發(fā)表于 03-18 10:48

互聯(lián)網(wǎng)電視迅速崛起

互聯(lián)網(wǎng)電視功能得到進(jìn)一步完善，并在彩電市場大行其道。2010年互聯(lián)網(wǎng)電視終于成為家庭娛樂電視的標(biāo)準(zhǔn)配備。2010年則有19個品牌在銷售互聯(lián)網(wǎng)功能的電視。 2008年

發(fā)表于 03-22 11:31

互聯(lián)網(wǎng)知識分享交流

互聯(lián)網(wǎng)交流，你了解互一起討論一下吧聯(lián)網(wǎng)+嗎，查看世界工廠網(wǎng)網(wǎng)頁，你會了解更hulianwang多的hulian互聯(lián)網(wǎng)知識哦

發(fā)表于 12-29 15:25

能源互聯(lián)網(wǎng)是什么？通俗的解釋能源互聯(lián)網(wǎng)

　　發(fā)現(xiàn)很多人對某些詞匯給的定義概念不是理解的很透徹，果然很多東西還是需要通俗的去解釋，運(yùn)用生活上的例子，大家才會理解的比較透徹，所以今天通俗的給大家解釋一下什么是能源互聯(lián)網(wǎng)。試想下未來，人們

發(fā)表于 01-14 11:47

工業(yè)互聯(lián)網(wǎng)

工業(yè)互聯(lián)網(wǎng)是全球工業(yè)系統(tǒng)與高級計算、分析、感應(yīng)技術(shù)以及互聯(lián)網(wǎng)連接融合的結(jié)果。它通過智能機(jī)器間的連接并最終將人機(jī)連接，結(jié)合軟件和大數(shù)據(jù)分析，重構(gòu)全球工業(yè)、激發(fā)生產(chǎn)力，讓世界更美好、更快速、更安全、更

發(fā)表于 01-25 09:29

工業(yè)互聯(lián)網(wǎng)

發(fā)表于 04-17 15:56

讀什么，在互聯(lián)網(wǎng)時代找到真實

如今互聯(lián)網(wǎng)時刻影響著人們的生活，說影響著世界格局也不為過。甚至在兩會的答記者問上，也有記者問******，“最近是否網(wǎng)購過”。現(xiàn)在的人，沒有網(wǎng)，或許就像突然斷電。不僅是成人世界在

發(fā)表于 05-23 13:48

技術(shù)與互聯(lián)網(wǎng)+

急急急！！！！！！！！！！！請問，如果用單片機(jī)做出了一個作品，互聯(lián)網(wǎng)+可以怎么用的上我的作品？除了用互聯(lián)網(wǎng)賣出去，還可以怎么辦呢

發(fā)表于 07-03 22:53

互聯(lián)網(wǎng)與工業(yè)物聯(lián)網(wǎng)之間的區(qū)別與聯(lián)系

聯(lián)網(wǎng)不能完全替代互聯(lián)網(wǎng)，而互聯(lián)網(wǎng)也不能滿足工業(yè)物聯(lián)網(wǎng)的發(fā)展需求，只能說在未來很長一段時間內(nèi)，兩者

發(fā)表于 06-14 10:18

CRM在互聯(lián)網(wǎng)行業(yè)的應(yīng)用

銷售覆蓋”的市場搶占策略上，力爭最快、最精準(zhǔn)的對接目標(biāo)客戶，從而成為垂直領(lǐng)域的龍頭，因此，CRM在互聯(lián)網(wǎng)行業(yè)的應(yīng)用也日趨普遍。 互聯(lián)網(wǎng)行業(yè)的業(yè)務(wù)挑戰(zhàn)1.地推團(tuán)隊龐大，能力參差不齊。如

發(fā)表于 08-28 14:30

空間互聯(lián)網(wǎng)天線設(shè)計

如鳥兒展翅，如飛機(jī)翱翔，未來的數(shù)據(jù)共享方式是如此的快捷、自由。環(huán)繞地球運(yùn)行的衛(wèi)星有可能徹底地改變?nèi)祟愂占c共享信息的方式。相比于有線或無線數(shù)據(jù)網(wǎng)絡(luò)，以衛(wèi)星系統(tǒng)為基礎(chǔ)的空間互聯(lián)網(wǎng)（Internet of Space，簡稱 IoS）技術(shù)能夠向全球各地，甚至是最偏遠(yuǎn)的地區(qū)提供網(wǎng)絡(luò)接入服務(wù)。什么是空間

發(fā)表于 07-16 07:31

什么是產(chǎn)業(yè)互聯(lián)網(wǎng)？

2018年10月，騰訊宣傳進(jìn)軍產(chǎn)業(yè)互聯(lián)網(wǎng)；2019年9月，騰訊完成了史上最大的組織架構(gòu)調(diào)整，新成立云與智慧產(chǎn)業(yè)事業(yè)群，正式發(fā)力產(chǎn)業(yè)互聯(lián)網(wǎng)；2020年1月，騰訊發(fā)布《2020產(chǎn)業(yè)安全報告：產(chǎn)業(yè)互聯(lián)網(wǎng)

發(fā)表于 01-18 11:40

為什么說產(chǎn)業(yè)互聯(lián)網(wǎng)是互聯(lián)網(wǎng)的下半場？

消費(fèi)互聯(lián)網(wǎng)改變的是商品銷售方式，產(chǎn)業(yè)互聯(lián)網(wǎng)改變的是生產(chǎn)和供給方式，而終極目標(biāo)是產(chǎn)消協(xié)同的數(shù)字化社會！因此，產(chǎn)業(yè)互聯(lián)網(wǎng)要求企業(yè)通過“智能化、數(shù)字化、網(wǎng)絡(luò)化”手段全方位賦能產(chǎn)業(yè)鏈的上下游、生產(chǎn)體系、組織結(jié)構(gòu)、運(yùn)作方式等各個環(huán)節(jié)，推動

發(fā)表于 01-18 11:42

互聯(lián)網(wǎng)公司為什么要學(xué)C語言？精選資料分享

互聯(lián)網(wǎng)作為當(dāng)下最有“錢景”的行業(yè)之一，那么今天我們就聊聊，C語言這個做互聯(lián)網(wǎng)行業(yè)影響究竟有多大呢？這里推薦一下我建的C/C++語言學(xué)習(xí)交流秋秋裙，前三位是：110，中間三位是：355，

發(fā)表于 07-22 07:16

區(qū)塊鏈技術(shù)正在讓信息互聯(lián)網(wǎng)向價值互聯(lián)網(wǎng)進(jìn)化

會上，肖風(fēng)表示：“區(qū)塊鏈技術(shù)宣告了互聯(lián)網(wǎng)從傳遞信息的信息互聯(lián)網(wǎng)向轉(zhuǎn)移價值的價值互聯(lián)網(wǎng)進(jìn)化。”肖風(fēng)還代表萬向承諾，在未來三年里，每年向萬向區(qū)塊

發(fā)表于 08-18 10:26 ?969次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

互聯(lián)網(wǎng)在進(jìn)化，互聯(lián)網(wǎng)的語言也在進(jìn)化

評論

聯(lián)想將進(jìn)軍互聯(lián)網(wǎng)

互聯(lián)網(wǎng)電視迅速崛起

互聯(lián)網(wǎng)知識分享交流

能源互聯(lián)網(wǎng)是什么？通俗的解釋能源互聯(lián)網(wǎng)

工業(yè)互聯(lián)網(wǎng)

工業(yè)互聯(lián)網(wǎng)

讀什么，在互聯(lián)網(wǎng)時代找到真實

技術(shù)與互聯(lián)網(wǎng)+

互聯(lián)網(wǎng)與工業(yè)物聯(lián)網(wǎng)之間的區(qū)別與聯(lián)系

CRM在互聯(lián)網(wǎng)行業(yè)的應(yīng)用

空間互聯(lián)網(wǎng)天線設(shè)計

什么是產(chǎn)業(yè)互聯(lián)網(wǎng)？

為什么說產(chǎn)業(yè)互聯(lián)網(wǎng)是互聯(lián)網(wǎng)的下半場？

互聯(lián)網(wǎng)公司為什么要學(xué)C語言？精選資料分享

區(qū)塊鏈技術(shù)正在讓信息互聯(lián)網(wǎng)向價值互聯(lián)網(wǎng)進(jìn)化