什么是 NLP
自然語言處理(NLP)是人工智能(AI)的一個分支,其目標(biāo)是讓計算機能夠像人類一樣理解、處理和生成自然語言。自然語言,又稱人類語言,一般以文字或文本的形式存在于計算機中,從而在某些地方,也被通俗的稱為文本智能處理。與自然語言相對的是形式語言(比如 Python 等編程語言),計算機可以精確地處理。自然語言往往因為在使用中省略背景,模糊而不精確、多義、引申、晦澀,甚至由于各種原因而故意使用曲折的表達(dá),而使計算機處理自然語言時困難重重,成為人工智能發(fā)展中最大的難點之一。
NLP 技術(shù)誕生于1950年代,其分支也枝繁葉茂。有基于語法和規(guī)則的方法,也有基于統(tǒng)計學(xué)習(xí)的方法,從21世紀(jì)初以來蓬勃發(fā)展的深度學(xué)習(xí)、深度強化學(xué)習(xí)和遷移學(xué)習(xí)的方法在 NLP 領(lǐng)域也被廣泛地使用。微觀層面,在學(xué)術(shù)界一般將 NLP 劃分為四個層級:即詞法(Lexicon)、句法(Syntax)、語義(Semantics)和語用(Pragmatics)。面向普通大眾,也通常使用偏向應(yīng)用層面的直接的劃分方法,即字詞級、句段級和篇章級。
NLP 技術(shù)在宏觀層面通常又劃分為劃分為自然語言理解(NLU)和自然語言生成(NLG)兩部分。通俗的講,自然語言理解就是我們常說的“閱讀”,即讓計算機讀懂語言文字的技術(shù)。而自然語言生成則是“寫作”,即讓計算機能夠像人類一樣寫句子和文章的技術(shù)。除此之外,光學(xué)字符識別(OCR)和語音技術(shù)(包括識別與合成),也會在某些場景下被歸為自然語言處理的一部分,但本文不涉及這兩塊內(nèi)容。
NLP 是實現(xiàn)認(rèn)知智能的關(guān)鍵
人工智能(AI)通常被分為三大塊:計算智能,感知智能和認(rèn)知智能。計算智能方面,以 AlphaGo 打敗了人類圍棋最頂尖選手李世石和柯潔為標(biāo)志,已將人類遠(yuǎn)遠(yuǎn)拋在后面。感知智能則以語音和圖像技術(shù)為代表,對應(yīng)于人類的視覺和聽覺,經(jīng)過近十幾年深度學(xué)習(xí)、遷移學(xué)習(xí)等技術(shù)的發(fā)展,也在非常多領(lǐng)域超越了人類。人工智能在近些年不斷的在計算智能和感知智能上發(fā)展,一方面是技術(shù)迅猛發(fā)展的原因,另外一方面也是人類并不擅長這兩種。然而,在認(rèn)知智能上,目前還有待技術(shù)層面的進(jìn)一步突破,而這里面的關(guān)鍵就是 NLP 技術(shù)。
一般認(rèn)為,認(rèn)知智能是以語言為基礎(chǔ),實現(xiàn)推理、思考、決策和想象。語言,是人類區(qū)別于動物的標(biāo)志性能力,而讓機器擁有語言能力的關(guān)鍵技術(shù)就是自然語言處理技術(shù)。當(dāng)前計算機在認(rèn)知智能上還處于非常初級的階段,特別是在中文上。今年遍地開花的各類智能音箱,隨便與之對話幾句便能夠感受到強烈的“智障”氣息。因此,為了達(dá)到更強的認(rèn)知智能,急需 NLP 技術(shù)的進(jìn)一步發(fā)展。當(dāng)前學(xué)術(shù)界的熱點也在往 NLP 領(lǐng)域遷徙,投向 NLP 方面的資本也在增加。
遷移學(xué)習(xí)和預(yù)訓(xùn)練模型在 NLP 領(lǐng)域出現(xiàn)了突破
以 ImageNet 為代表的預(yù)訓(xùn)練模型以及相應(yīng)的遷移學(xué)習(xí)技術(shù),促使了感知智能的極大發(fā)展。為了提升認(rèn)知智能的水平,必須在 NLP 技術(shù)上有所突破。在深度學(xué)習(xí)出現(xiàn)以后,對于有大量標(biāo)注數(shù)據(jù)的場景,比如中文和英文之間的機器翻譯,通過深度學(xué)習(xí)和 NLP 技術(shù)的結(jié)合能夠達(dá)到不錯的效果。然而對于缺乏標(biāo)注數(shù)據(jù)的絕大多數(shù)場景,則依賴于好的預(yù)訓(xùn)練模型以及遷移學(xué)習(xí)技術(shù)的發(fā)展。此前,這個在圖像領(lǐng)域已經(jīng)被證明了的范式,在 NLP 領(lǐng)域一直發(fā)展得不溫不火。大概是量變引起質(zhì)變,從 Word2Vec 出現(xiàn)以來,NLP 領(lǐng)域的預(yù)訓(xùn)練模型在 5 年內(nèi)的積累,以及深度網(wǎng)絡(luò)在 NLP 領(lǐng)域的應(yīng)用,使得今年出現(xiàn)了突破。這里面最耀眼的當(dāng)屬 Google 剛剛提出的 BERT 預(yù)訓(xùn)練模型以及基于 BERT 的遷移學(xué)習(xí)。
NLP領(lǐng)域的預(yù)訓(xùn)練模型的發(fā)展歷史(配圖:達(dá)觀數(shù)據(jù))
早在 2013 年 Google 提出了 Word2Vec 之后,NLP 領(lǐng)域的深度學(xué)習(xí)就開始使用預(yù)訓(xùn)練模型,而后斯坦福大學(xué)提出的 GloVe 和 Facebook 提出的 Fasttext 則是進(jìn)一步發(fā)展。然而在今年之前,這方面的嘗試大都局限于使用淺層網(wǎng)絡(luò),在詞的層面上進(jìn)行建模。針對具體的應(yīng)用場景,要達(dá)到較好的效果依然需要非常大量的標(biāo)注語料。預(yù)訓(xùn)練深層模型以及之上的遷移學(xué)習(xí)在圖像領(lǐng)域的成功,引領(lǐng)著 NLP 領(lǐng)域?qū)<覀円苍谒伎既绾螌崿F(xiàn)同樣的范式。多年的努力與探索,終于在今年迎來了豐收。
首先是年初發(fā)表于 NAACL-HIT 2018 的 ELMo 預(yù)訓(xùn)練模型,用正向和反向兩個 LSTM 語言模型(BiLM)在通用語料上進(jìn)行訓(xùn)練,將得到的預(yù)訓(xùn)練好的模型(即 ELMo)用于深度網(wǎng)絡(luò)的輸入上,在多個任務(wù)上能夠明顯改善已有的模型的效果。
此后,F(xiàn)astAI 基于三層 AWD-LSTM 構(gòu)建出的語言模型,使用大規(guī)模通用語料預(yù)訓(xùn)練出 ULMFiT 模型。將該模型應(yīng)用于特定領(lǐng)域,只要使用非常少量的標(biāo)注數(shù)據(jù)就可以達(dá)到普通模型需要大量標(biāo)注數(shù)據(jù)的效果。這個模型的成功,使得大家看到了遷移學(xué)習(xí)在 NLP 領(lǐng)域上的曙光。
緊接著,OpenAI 使用 Transformer 和無監(jiān)督結(jié)合的方法在大規(guī)模通用語料上進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練好的 GPT 模型。針對特定的場景,在預(yù)訓(xùn)練好的 GPT 模型基礎(chǔ)上,用小得多的數(shù)據(jù)集進(jìn)行有監(jiān)督學(xué)習(xí),獲得了當(dāng)時最好的成績。
2018 年10月,Google 在 GPT 的基礎(chǔ)上進(jìn)一步改進(jìn),提出了基于 Transofrmer 的 BERT 模型。在訓(xùn)練 BERT 的過程中,Google 構(gòu)造出 MLM(Masked Language Model)語言模型,這是一個“真”雙向語言模型。并在通用的大規(guī)模語料 BooksCorpus(800Mwords)加上英文維基百科(2,500M words)上進(jìn)行無監(jiān)督訓(xùn)練,得到預(yù)訓(xùn)練模型 BERT。論文中,使用預(yù)訓(xùn)練的模型 BERT 在 11 個任務(wù)上進(jìn)行有監(jiān)督的微調(diào)(遷移學(xué)習(xí)),其效果全部達(dá)到當(dāng)前最優(yōu)。特別地,在斯坦福問答評測數(shù)據(jù)集(SQuAD 1.1)上超越了人類專家的評測結(jié)果。
BERT、OpenAI GPT 和 ELMo 三個模型的示意圖
BERT 的出現(xiàn)及其在多個任務(wù)上進(jìn)行遷移學(xué)習(xí)所達(dá)到非常好的效果,證明了預(yù)訓(xùn)練模型和遷移學(xué)習(xí)的范式在NLP領(lǐng)域同樣有效。這將在接下來的一段時間中,極大地促進(jìn) NLP 的發(fā)展。這是因為絕大多數(shù)場景都缺乏大量的標(biāo)注語料,BERT 的成功使得人們看到了曙光。春江水暖鴨先知,也許可以說,NLP 的春天來了。
除了前面提到的遷移學(xué)習(xí),其他遷移學(xué)習(xí)的方法也取得一些進(jìn)展。比如對風(fēng)格遷移的研究,多語言和跨語言的遷移學(xué)習(xí)等。除此之外,在知識圖譜領(lǐng)域中,應(yīng)用于實體、關(guān)系和事件抽取的遷移技術(shù)也有一定的進(jìn)展。
NLP各個方向的進(jìn)展多姿多彩
在 NLP 上的遷移學(xué)習(xí)之外,深度強化學(xué)習(xí)(Deep Reinforcement Learning, DRL)技術(shù)在 NLP 上的應(yīng)用也表現(xiàn)出色。深度強化學(xué)習(xí)最耀眼的表現(xiàn)莫過于 Google 的 AlphaZero,通過完全舍棄人類經(jīng)驗,僅根據(jù)圍棋規(guī)則構(gòu)建深度強化學(xué)習(xí)模型,通過超級計算力進(jìn)行學(xué)習(xí),并最終打敗了當(dāng)前圍棋界公認(rèn)的最頂尖的大師柯潔。這證明了強化學(xué)習(xí)技術(shù)的能力非凡,多個團(tuán)隊將其在NLP領(lǐng)域進(jìn)行了嘗試。這些嘗試包括使用 DRL 進(jìn)行機器翻譯,摘要生成、信息抽取、問答系統(tǒng)等,并都取得了非常不錯的效果。
生成對抗網(wǎng)絡(luò)(GAN)也是當(dāng)前最熱門的技術(shù)之一,今年在圖像生成方面非進(jìn)展非常大。特別值得一提的是,Deepmind 發(fā)布了 BigGAN 模型,該模型生成的圖片非常的逼真,在 ImageNet 的評測集上從之前的最高分 52.52 提升到 66.3,效果的提升簡直慘無人道。然而,GAN 在 NLP 領(lǐng)域所取的成績則遜色很多。部分研究者使用 GAN 在信息抽取上獲得不錯的效果,在自然語言生成 NLG(包括摘要生成等)上有所進(jìn)展,并且在機器翻譯、詞性標(biāo)注等方面進(jìn)行了一些嘗試。
行業(yè)應(yīng)用出現(xiàn)系統(tǒng)化和集約化
另外,同樣重要的一方面是如何將這些成果應(yīng)用于工業(yè)界,幫助企事業(yè)單位和科研研所等提升效率。而這也決定了資本是否能夠持續(xù)投入,從而促使 AI 走向更強的認(rèn)知智能。可喜的是,各行各業(yè)對 NLP 的接受越來越高,也越來越希望使用 NLP 技術(shù)幫助他們實現(xiàn)精耕細(xì)作和提升效率。
系統(tǒng)化體現(xiàn)在需要運用 NLP 方方面面的技術(shù),甚至結(jié)合其他人工智能技術(shù)來實現(xiàn)業(yè)務(wù)的需求。從 NLP 傳統(tǒng)應(yīng)用領(lǐng)域—搜索說起。幾乎可以說,現(xiàn)代 NLP 技術(shù)是伴隨著搜索引擎的發(fā)展一起成長的。然而,此前,搜索系統(tǒng)上用到的 NLP 技術(shù)更多的是在字詞層面上,而今年開始,專業(yè)的搜索幾乎都要求句段以及篇章級別的搜索。
招聘領(lǐng)域是一個典型的場景,以往的搜索引擎都是根據(jù) HR 提供的關(guān)鍵詞進(jìn)行簡歷搜索,而今年,達(dá)觀智慧招聘提供的人崗匹配功能則是直接根據(jù) JD(職位描述)來自動的從簡歷庫里面搜索簡歷,實現(xiàn)篇章級的搜索功能,并在多個 10 萬員工級別的企業(yè)實施,效果非常好。與此類似的場景還包括根據(jù)專利搜索相似專利,根據(jù)文檔(比如 doc,pdf 等)搜索相似文檔等等。除此之外,時至今年,問答式搜索幾乎已經(jīng)成為垂直搜索引擎的標(biāo)配;與知識圖譜結(jié)合實現(xiàn)推理性搜索也在部分領(lǐng)域(如金融、大型企業(yè)的信息管理、科研機構(gòu)等)嘗試中,未來可期。
與此同時,信息抽取技術(shù)也取得了極大的發(fā)展。像 DRL(深度強化學(xué)習(xí))和 GAN(對抗生成網(wǎng)絡(luò))等技術(shù)被應(yīng)用到實體和關(guān)系的抽取環(huán)節(jié)中,從而對知識圖譜的構(gòu)建起到較大的促進(jìn)作用。目前工業(yè)界在行業(yè)知識圖譜的構(gòu)建中,基于規(guī)則的算法和基于模板的算法依然占據(jù)大多數(shù),期待接下來能夠促進(jìn)這些技術(shù)進(jìn)展在知識圖譜中的廣泛使用,實現(xiàn)知識工程的自動化,為認(rèn)知智能的實現(xiàn)添磚加瓦。
文本的自動化審核,也開始逐步被市場接受。文檔審核涉及多方面技術(shù),是 AI 和 NLP 技術(shù)在工業(yè)界系統(tǒng)化應(yīng)用的直接體現(xiàn)。其技術(shù)包括基于語言模型的錯別字審核、通過信息抽取技術(shù)進(jìn)行關(guān)鍵要素的精準(zhǔn)抽取、基于領(lǐng)域詞表或?qū)嶓w抽取審核要素完整性和一致性,以及基于前述信息之上構(gòu)建布爾邏輯的審核。文本自動化審核應(yīng)用非常廣泛,像法務(wù)合同、金融類文檔(如財報、股票發(fā)行說明書等)、新聞和公文等等。
文檔審閱系統(tǒng)(配圖:達(dá)觀數(shù)據(jù))
前面提到的大多是從 NLP 的“讀”(即 NLU)的層面的應(yīng)用,與之相應(yīng)的 NLG 方面則剛剛出現(xiàn)萌芽,大面積的應(yīng)用還未出現(xiàn),期待在接下里的一年里技術(shù)上能夠有所突破,從而使得AI寫作方面在工業(yè)界的應(yīng)用能夠全面開花。
目前,NLG 部分的應(yīng)用主要體現(xiàn)在幾個方面:部分公司在嘗試使用 NLG 技術(shù)來進(jìn)行新聞寫作,從而實現(xiàn)部分新聞(如股市收評,體育快報等)的實時推送;部分技術(shù)領(lǐng)先的智能客服企業(yè)會使用NLG技術(shù)來生成問題的回答,從而實現(xiàn)更接近人的交互。今年 5 月份的 GoogleAssistant 的演示表現(xiàn)出來的驚艷的一幕,也有 NLG 的一份功勞。
除了應(yīng)用多種技術(shù)來實現(xiàn)系統(tǒng)化的應(yīng)用之外,集約化也是今年 NLP 領(lǐng)域的主題之一。“集約”原意是指農(nóng)業(yè)上在同一土地面積上投入較多的生產(chǎn)資料和勞動,進(jìn)行精耕細(xì)作,以提高單位面積產(chǎn)量從而來增加產(chǎn)品總量。這里是指將 NLP 技術(shù)應(yīng)用于某個特定領(lǐng)域,從而提高生成效率。首先是司法方面,嘗試使用 NLP 技術(shù)來幫助法院法官的審判。司法智能所要求能夠深入理解長篇文檔的內(nèi)容,而這涉及到對大規(guī)模語料的訓(xùn)練以及將結(jié)果遷移到專業(yè)領(lǐng)域。而遷移學(xué)習(xí)在文本上的應(yīng)用恰好在今年實現(xiàn)了突破,故而司法智能這類的領(lǐng)域應(yīng)用則是水到渠成的。同樣的應(yīng)用還有科技情報、企業(yè)內(nèi)部的知識管理,以及金融領(lǐng)域的監(jiān)管智能等等。
從NLP邁向認(rèn)知智能
今年 NLP 技術(shù)的突破可喜可賀,行業(yè)應(yīng)用也全面開花。然而,NLP 的核心問題依然存在,主要體現(xiàn)在幾個方面:
NLU 有待進(jìn)一步突破,提高機器理解文字的能力,與人類進(jìn)行更好地交互。
標(biāo)注語料的積累;由于 NLP 的特點,與圖像、語音領(lǐng)域相比,即便專家也很難做好語料標(biāo)注,質(zhì)與量的積累都是關(guān)鍵因素。
能效比有待提升;目前雖然很多模型效果不錯,但其訓(xùn)練和預(yù)測過程所需時間很長,對計算力的要求非常高。
遷移學(xué)習(xí)研究與應(yīng)用的還需更大的發(fā)展;可以更低成本地實現(xiàn)從通用到領(lǐng)域、從領(lǐng)域到通用的知識遷移;
亟待 NLG 技術(shù)的進(jìn)一步發(fā)展;目前 NLG 方面的突破還乏善可陳。
期待知識工程和知識圖譜領(lǐng)域的新進(jìn)展與突破;如何自動、持續(xù)地構(gòu)建更加全面的知識庫是一個極大的挑戰(zhàn)。
總的來說,從科研界到工業(yè)界再到資本市場的積極投入,人才也不斷地積累,NLP 技術(shù)在未來幾年會更加蓬勃發(fā)展,相信上面提到的這些問題在接下來的幾年內(nèi)會被逐步的解決。特別地,延續(xù)今年的突破,明年遷移學(xué)習(xí)在 NLP 的應(yīng)用還會上一個臺階;NLG 方面今年已見曙光,期待明年在此方向有所突破。標(biāo)注語料庫、知識工程和知識圖譜等概念已經(jīng)深入產(chǎn)業(yè)的人心,這方面會持續(xù)積累,也許未來 3 到 5 年會實現(xiàn)量變到質(zhì)變的變化。而這里面最難的當(dāng)屬能效比,可能需要從基礎(chǔ)科學(xué)到芯片到 NLP 等各方面專家的努力,期待的是在未來 5 年能有所發(fā)展。
當(dāng)這些問題在被逐步解決的時候,也是機器逐步實現(xiàn)認(rèn)知智能的時候,從而實現(xiàn)在大部分場景下幫助人類解決文字處理相關(guān)的工作,讓人類不用再加班,與機器的交互更加自然和諧,使得我們的生活更加美好。而 NLP 人工作的點點滴滴,最終都會匯聚在這條美好的生活的大江中。“合抱之木,生于毫末”,對于 NLP 來說,我們不斷在成長,蒼天大樹即將長成,認(rèn)知智能咫尺可期。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47643瀏覽量
240082 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22093
原文標(biāo)題:幫AI擺脫“智障”之名,NLP這條路還有多遠(yuǎn)?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論