知識圖譜是NLP的未來嗎?
2021年了,不少當年如日中天技術到今天早已無人問津,而知識圖譜這個AI界的大IP最火的時候應該是18,19年,彼時上到頭部大廠下到明星創業公司都在PR自己圖譜+NLP布局能夠賦予AI認知能力。到了當下這個AI總體降溫的時間節點,我們是時候冷靜思考知識圖譜的未來到底該何去何從了。
回到這個問題本身:知識圖譜是否是NLP的未來呢?
我的看法:知識圖譜不是NLP的未來,因為知識圖譜是另外一種與NLP有很多交集的技術。在目前所有已知的發展方向中,知識圖譜是最有可能長期和NLP互利共生的技術。
那么,知識圖譜和NLP到底是什么關系呢?直覺上看,機器學習可以類比我們人類學習。回顧一下我們自己的學習過程,大腦和感官主要負責信息獲取、處理、分析、決策。對于簡單問題或少數天才,接受到信息后,只需要在大腦中思考一遍即可得出結論。但是對于復雜問題,比如工作匯報或期末考試,只靠大腦很難記住所有信息,這個時候,很多人都會選擇將一些加工過的結構化或半結構化的知識整理成筆記,方便需要的時候快速回顧。
發現了嗎?大腦的角色非常類似NLP以及其他ML技術,而筆記幾乎就是KG的靈感來源。具體來說,NLP在圖譜構建過程中舉足輕重,而圖譜又通過引入知識的方式反哺NLP。
不少證據已經表明諸如Bert之類的預訓練語言模型本身已經存儲了知識,就像我們的大腦中也存在一些關鍵記憶一樣,但它不可能將所有現實世界中的事實全部內化,猶如人腦不可能記住所有見過的東西一樣,而知識圖譜通過引入知識能緩解NLP的學習壓力。另一個嚴重的問題是,由于NLP技術目前遠沒有人腦智能,模型在訓練中記住的知識實際上是不可控的(此處可以圍觀隔壁的AI偏見問題[1]),這對NLP技術的落地應用是一個需要考慮的風險,而在可解釋性方面,知識圖譜是Bug級的存在。
知識圖譜如何賦能NLP技術?
NLP技術如何賦能圖譜構建的資料很多,知識圖譜落地應用近些年也是進展地如火如荼,但,知識圖譜如何賦能NLP技術這個話題聊的人卻不太多。
我自己總結了最近幾年KG賦能NLP技術的一些打法,歡迎補充~
預訓練中引入知識
代表工作:
ERNIE[2],使用短語和實體mask策略在中文NLP任務上取得了較好的效果,其中短語和實體來自KG
圖2. ERNIE
K-BERT[3],預訓練過程中注入相關的KG三元組,為模型配備領域知識,提高模型在特定領域任務上的性能,同時降低大規模預訓練成本。
圖3. K-BERT
信息抽取中做遠程監督
用KG對齊文本做遠程監督標注數據是信息抽取領域的大殺器,能夠有效降低人工標注成本,可以將實體抽取、關系抽取、事件抽取等子任務一網打盡,用過的小伙伴都說好。
圖4. 遠程監督
實體鏈接中引入實體信息
實體鏈接,就是把文本中的mention鏈接到KG里的entity的任務。如下圖所示[4]:
圖5. 實體鏈接
顯然,KG中的實體信息,如實體描述、實體屬性、實體embedding以及實體間關系等都是該任務的關鍵特征,想深入了解的朋友請移步[4]。
文本生成中融合知識
通過知識圖譜中的顯示事實來指導生成文本是實現可控文本生成的一個重要方向,如下所示[5]:
圖6. 文本生成
具體大致分為4種較為典型的方式[6]:
多任務學習(生成+文本蘊含)
基于knowledge graph 的文本生成
基于memory network 的文本生成
結合分布-采樣進行文本生成
想詳細了解的朋友請移步[6]。
語義匹配中引入關鍵詞信息
在深度語義匹配任務中,有人發現,通過文本中關鍵詞之間的交互即可較為容易的找到匹配對象,與其他詞匯關系不大[7][8]。
圖7. 語義匹配case
因此,考慮通過從KG中引入特定領域的關鍵詞表,然后在建模時highlight關鍵詞的重要度,從而達到更好的效果[8]。
圖8. 關鍵字注意力機制
責任編輯:lq
-
模型
+關注
關注
1文章
3248瀏覽量
48860 -
nlp
+關注
關注
1文章
488瀏覽量
22041 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7709
原文標題:知識圖譜能否拯救NLP的未來?
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論