7月28-29日,由中國(guó)人工智能學(xué)會(huì)和深圳市羅湖區(qū)人民政府共同主辦,馬上科普承辦的“2018 中國(guó)人工智能大會(huì)(CCAI 2018)”完美收官。
大會(huì)第一天下午,蘇州大學(xué)特聘教授、國(guó)家杰出青年科學(xué)基金獲得者張民作題為《自然語(yǔ)言處理方法與應(yīng)用》的主題講座。與參會(huì)者共同分享自然語(yǔ)言處理方法,以及應(yīng)用和進(jìn)展。
以下是根據(jù)速記整理的大會(huì)講座實(shí)錄。
蘇州大學(xué)特聘教授、國(guó)家杰出青年科學(xué)基金獲得者張民
張民:感謝大會(huì)的邀請(qǐng),使我有機(jī)會(huì)和大家分享自然語(yǔ)言處理方法,以及應(yīng)用和進(jìn)展。這也是給了我一個(gè)非常大的機(jī)會(huì)和動(dòng)力,讓我自己去總結(jié)、自己去深度挖掘、去想,做了這么多年,到底什么叫自然語(yǔ)言處理,有什么樣的方法,都是怎樣研究的,進(jìn)展在哪里。更重要的是,用什么樣的方法能和在座的各位進(jìn)行交流和溝通。
大家聽(tīng)了很多次報(bào)告,這是其中一次,我在上面講,用自然語(yǔ)言的方式把想講的東西表達(dá)出來(lái),大家在下面聽(tīng)。大家有沒(méi)有仔細(xì)想過(guò),你是怎樣理解我講的這些話,你學(xué)到了什么,你學(xué)完之后又采取了哪些動(dòng)作,對(duì)你有哪些影響,這個(gè)過(guò)程就是一個(gè)很典型的自然語(yǔ)言處理過(guò)程。
我主要分四部分進(jìn)行講解。既然是人工智能大會(huì),自然語(yǔ)言處理本身也是人工智能非常重要的分支,我用一點(diǎn)時(shí)間給大家介紹一下什么是人工智能、什么是自然語(yǔ)言、什么是自然語(yǔ)言處理。然后再介紹自然語(yǔ)言處理方法、應(yīng)用,以及在人工智能時(shí)代自然語(yǔ)言處理的特點(diǎn)。最后給大家一個(gè)結(jié)論。
1.
人工智能、自然語(yǔ)言和自然語(yǔ)言處理
人類社會(huì)的發(fā)展是從農(nóng)業(yè)社會(huì)到工業(yè)社會(huì),到現(xiàn)在是信息社會(huì)。提到信息社會(huì)會(huì)想到信息爆炸,有各種各樣的名詞出現(xiàn),比如我們現(xiàn)在處于大數(shù)據(jù)時(shí)代、信息時(shí)代,有數(shù)字經(jīng)濟(jì),現(xiàn)在人工智能又這么熱。大家有時(shí)是不是很迷惑,到底我們處于什么樣的時(shí)代?其實(shí)所有這些從數(shù)據(jù)到信息、到知識(shí)、到智能都是信息時(shí)代的標(biāo)志,它們之間到底有什么區(qū)別?數(shù)據(jù)是什么?信息是什么?知識(shí)是什么?智能是什么?
數(shù)據(jù)就是對(duì)事實(shí)的記錄,對(duì)我們所看到的主觀世界或客觀世界事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示,以適合在這個(gè)領(lǐng)域中用人工或自然的方式進(jìn)行保存、傳遞和處理。舉個(gè)簡(jiǎn)單的例子,深圳今天的室外溫度很熱,37℃,數(shù)據(jù)是什么?數(shù)據(jù)就是氣溫,37℃。這就是一個(gè)數(shù)據(jù),對(duì)深圳屬性描述、氣溫、氣壓是多少。僅有數(shù)據(jù)得不到任何信息,如果我說(shuō)氣溫-20℃,什么意思?大家不知道。
信息就是在數(shù)據(jù)基礎(chǔ)上進(jìn)行加工,能夠傳達(dá)你想聽(tīng)到的和我所講的。你聽(tīng)到我講的以后,就知道我講的什么意思了。信息是具有時(shí)效性的有一定含義的、有邏輯的、經(jīng)過(guò)加工處理的、對(duì)決策有價(jià)值的數(shù)據(jù)流,也就是加工后有邏輯的數(shù)據(jù)。還是用天氣做例子, “2018年7月28日,中午,深圳的天氣是37℃”,這就是一條信息。如果只說(shuō)溫度37℃,不知道什么意思。
知識(shí)是什么?小時(shí)候?qū)W的數(shù)學(xué)、化學(xué)、物理的定義和證明就是知識(shí),知識(shí)就是在信息基礎(chǔ)上進(jìn)行抽象、凝練、總結(jié)、歸納、演繹,使其有價(jià)值的部分沉淀下來(lái),可以結(jié)構(gòu)化、傳承、抽象,有價(jià)值的信息就轉(zhuǎn)變成知識(shí)。
人工智能
什么叫智能?智能包括兩部分,一部分是智,一部分是能;智就是智慧,能就是能力。用一句話總結(jié),智能就是用知識(shí)來(lái)解決問(wèn)題的能力。僅有數(shù)據(jù)不行,數(shù)據(jù)什么都不是;只有信息也不行,因?yàn)樾畔?shí)在太豐富了;然后就必須要有知識(shí);但有知識(shí)也不行,有知識(shí)必須要有能力;把知識(shí)運(yùn)用起來(lái),這時(shí)我們就把它叫做智能。這就是知識(shí)和智能關(guān)系。
現(xiàn)在人工智能已上升到國(guó)家發(fā)展戰(zhàn)略,科技部、教育部、基金委、工信部和產(chǎn)業(yè)、科研機(jī)構(gòu)、大學(xué)都在談人工智能。從50年代、60年代、70年代到現(xiàn)在,會(huì)發(fā)現(xiàn)人工智能熱時(shí),大家喊人類要?dú)纾斯ぶ悄芤娲祟悾f(shuō)你要失業(yè)了。如果人工智能不火時(shí),說(shuō)是騙子,騙了國(guó)家、用戶的錢,沒(méi)幫助我們解決問(wèn)題。但是冷靜下來(lái)想,目前我們研究人工智能雖然取得了很大的進(jìn)步,但是從人工智能的科學(xué)問(wèn)題和智能的本質(zhì)角度還差得很遠(yuǎn)。如果拿人的年齡作比喻,人工智能最多是一兩歲。所以,第一,我們不是騙子;第二,人類也不會(huì)因?yàn)槿斯ぶ悄軞纾€有很長(zhǎng)的路要走。
中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)李德毅院士講過(guò)一句話,他說(shuō),講不清楚的人工智能內(nèi)涵的人,都是在忽悠。李院士給人工智能下的定義(見(jiàn)圖1),我非常認(rèn)可。這個(gè)定義就是人工智能的內(nèi)涵,包括腦認(rèn)知基礎(chǔ)、機(jī)器感知與模式識(shí)別、自然語(yǔ)言處理與理解和知識(shí)工程四部分。腦認(rèn)知技術(shù)是基礎(chǔ),然后是知識(shí)工程。知識(shí)工程做什么?要做的就是怎樣去把人類社會(huì)的知識(shí)用計(jì)算機(jī)表達(dá)出來(lái),怎樣數(shù)學(xué)化建模。人工智能最終體現(xiàn)兩方面,一個(gè)是感知;一個(gè)是認(rèn)知。語(yǔ)音識(shí)別和圖像處理屬于典型的感知問(wèn)題;而自然語(yǔ)言處理和理解,是一個(gè)認(rèn)知的過(guò)程。自然語(yǔ)言理解被認(rèn)為是認(rèn)知智能的核心難題。人工智能的外延是什么?按照李院士的定義來(lái)說(shuō),包括兩部分,一個(gè)是機(jī)器人;一個(gè)是智能系統(tǒng)。機(jī)器人包括很多,如工業(yè)機(jī)器人、農(nóng)業(yè)機(jī)器人和國(guó)防機(jī)器人等;智能系統(tǒng)也包括很多,如智能商務(wù)、智能制造和智慧金融等,這就是人工智能的外延。
圖1 人工智能的內(nèi)涵和外延(李德毅院士)
自然語(yǔ)言處理和理解
我們知道對(duì)一個(gè)智能生物體來(lái)講主要包括感知、認(rèn)知和進(jìn)化三部分。進(jìn)化在人工智能領(lǐng)域研究得非常少。圖2示出了人的進(jìn)化過(guò)程,左邊是一只老虎,圖上放了三個(gè)術(shù)語(yǔ)。第一點(diǎn),人類經(jīng)過(guò)了億萬(wàn)年的進(jìn)化,從食物鏈中端進(jìn)化到食物鏈的頂端。這里不講人類有沒(méi)有控制世界、破壞世界(那是一個(gè)哲學(xué)問(wèn)題),只是從生物鏈角度,我們站到食物鏈的頂端,享受人類世界的文明成果,可以作報(bào)告,可以談?wù)撊斯ぶ悄軉?wèn)題,可以談?wù)撜軐W(xué)問(wèn)題,不用擔(dān)心被老虎吃掉。但是,如果以人的能力,從一個(gè)人的角度來(lái)講,肯定打不過(guò)老虎(除了武松之外)。第二點(diǎn),大家都講,腦的容量越大就越聰明。有時(shí)候我給女兒講故事,我反問(wèn)她,大腦容量越大越聰明對(duì)不對(duì)?她說(shuō),爸爸,你的腦容量大還是老虎腦容量大?我沒(méi)研究過(guò),估計(jì)老虎腦容量比較大(老虎大腦比人腦重約6倍),但是人比老虎聰明。為什么人類能夠進(jìn)化,處在食物鏈的頂端,和動(dòng)物唯一的的區(qū)別就是有語(yǔ)言。人類通過(guò)語(yǔ)言進(jìn)行溝通、合作,打不過(guò)老虎沒(méi)關(guān)系,在地上挖一個(gè)坑,上面放一塊肉,老虎咬那塊肉肯定會(huì)掉下去,結(jié)果不言而喻。所以,語(yǔ)言非常重要,語(yǔ)言區(qū)別于人與動(dòng)物。
圖2 自然語(yǔ)言與人的進(jìn)化過(guò)程
人工智能最核心的一部分就是自然語(yǔ)言處理和理解。
什么是語(yǔ)言?從計(jì)算機(jī)角度來(lái)講,語(yǔ)言就是一個(gè)符號(hào)系統(tǒng)。一個(gè)符號(hào)系統(tǒng)有幾個(gè)特點(diǎn):
第一必須有字母、有詞;
第二,必須有規(guī)則;
第三,必須有起始符號(hào);
第四,必須有終止?fàn)顟B(tài)。
這就是語(yǔ)言的基本定義。
語(yǔ)言的種類
(1)動(dòng)物語(yǔ)言
如果從語(yǔ)言種類來(lái)講分為動(dòng)物語(yǔ)言、人工語(yǔ)言和自然語(yǔ)言三種。動(dòng)物語(yǔ)言和自然語(yǔ)言有什么區(qū)別?動(dòng)物語(yǔ)言有幾個(gè)特點(diǎn),第一,只有聲音,沒(méi)有文字。第二,只有單詞,最多表達(dá)20多種狀態(tài),這20多個(gè)單詞不可以進(jìn)行組合,而且動(dòng)物語(yǔ)言表達(dá)狀態(tài)都是最基本的、單一的,比如餓了、飽了、敵人來(lái)了、遇到危險(xiǎn)了。第三,與生俱來(lái)的,不是后天學(xué)出來(lái)的。一只在中國(guó)的老虎和一只在美國(guó)的老虎從來(lái)沒(méi)見(jiàn)過(guò),它倆的語(yǔ)言可以交流;不像人,美國(guó)人和中國(guó)人從沒(méi)見(jiàn)過(guò),不可以用語(yǔ)言進(jìn)行交流的。第四,動(dòng)物語(yǔ)言和人不一樣,不可以記錄現(xiàn)實(shí),也不可以對(duì)現(xiàn)在進(jìn)行描述,也不能展望未來(lái)。從來(lái)沒(méi)有老虎媽媽和老虎寶寶講,將來(lái)怎樣。
(2)人工語(yǔ)言
人工語(yǔ)言和動(dòng)物語(yǔ)言與自然語(yǔ)言的區(qū)別。人工語(yǔ)言是由人創(chuàng)造的。首先人工語(yǔ)言目的是為了溝通;第二是一些非常有情懷的人做人工語(yǔ)言;第三,人工語(yǔ)言不像人類語(yǔ)言可以進(jìn)行演變。一個(gè)代表性的例子就是世界語(yǔ),由波蘭人柴門霍夫發(fā)明的,在上世紀(jì)80年代非常流行。隨著全球各國(guó)逐漸開(kāi)放,世界語(yǔ)言不流行了,逐漸被英語(yǔ)取代。
人工語(yǔ)言發(fā)明的原因有多種,比如,人類之間交流、溝通使用;著作者愛(ài)好;藝術(shù)語(yǔ)言、文學(xué)作品的溝通……人工語(yǔ)言我比較推崇的,一個(gè)是《魔戒》作者創(chuàng)造的。還有就是《失落的帝國(guó)》中古代語(yǔ)言的亞特蘭帝斯語(yǔ)。如果看過(guò)這部電影,會(huì)看到其導(dǎo)演費(fèi)了很大的精力,請(qǐng)了歷史學(xué)家、作家、語(yǔ)言學(xué)家坐在一起,為這部電影創(chuàng)造語(yǔ)言。你會(huì)發(fā)現(xiàn)這些人在講的時(shí)候不是亂講,是有規(guī)律的,而且可以進(jìn)行溝通。
(3)自然語(yǔ)言
什么是自然語(yǔ)言?自然語(yǔ)言的定義、起源、種類和分布到底是什么?自然語(yǔ)言的定義非常多,大概有幾十種定義,無(wú)論是做語(yǔ)言學(xué)的,還是做文學(xué)的,你會(huì)發(fā)現(xiàn)每種定義都是從某個(gè)側(cè)面對(duì)自然語(yǔ)言某些特征的描述,都會(huì)有漏洞,都會(huì)有它描述不到的地方。到目前為止,還找不到一個(gè)大家公認(rèn)的,一個(gè)科學(xué)的、能被廣泛接受的自然語(yǔ)言定義。
自然語(yǔ)言的起源有幾種說(shuō)法。第一個(gè)是神授說(shuō)。不同的宗教,對(duì)語(yǔ)言的起源給出不同的定義。比如,基督教認(rèn)為是耶穌創(chuàng)造的;我國(guó)廣西壯族自治區(qū)少數(shù)民族認(rèn)為是山神創(chuàng)造的;印度教也有印度教的說(shuō)法,認(rèn)為是吠陀創(chuàng)造的。第二個(gè)是人創(chuàng)說(shuō)。既然人講自然語(yǔ)言,自然語(yǔ)言就是人創(chuàng)造出來(lái)的。在我國(guó)有一個(gè)非常標(biāo)準(zhǔn)的定義,即恩格斯說(shuō)的定義,他說(shuō):語(yǔ)言是從勞動(dòng)中并和勞動(dòng)中一起產(chǎn)生的。不管理不理解,恩格斯講的都是對(duì)的;但是他不是亂講的,為什么說(shuō)勞動(dòng)創(chuàng)造語(yǔ)言?恩格斯在講這句話之前先給三個(gè)條件:①人類的思維能力要發(fā)展到一定的水平;②人類要具備一定的生理?xiàng)l件;③人類社會(huì)有了產(chǎn)生語(yǔ)言的必要。滿足這三個(gè)條件就可以創(chuàng)造語(yǔ)言,正好勞動(dòng)滿足三個(gè)條件,所以語(yǔ)言就是由勞動(dòng)創(chuàng)造出來(lái)的。
自然語(yǔ)言的種類。目前世界存在語(yǔ)言6 909種,只有2 000多種語(yǔ)言有書面文字,2500種語(yǔ)言瀕危。漢語(yǔ)、西班牙語(yǔ)、英語(yǔ)、阿拉伯語(yǔ)和印度語(yǔ)是世界上使用最多的;英、法、西、葡、荷蘭語(yǔ)是世界上分布最廣的;漢語(yǔ)國(guó)際化還不夠。
自然語(yǔ)言處理
自然語(yǔ)言處理就是用計(jì)算機(jī)來(lái)處理人類的自然語(yǔ)言。那么,計(jì)算機(jī)怎樣才能處理自然語(yǔ)言?都要做什么?
自然語(yǔ)言處理就做三件事情(見(jiàn)圖3),把這三件事情做好了,可以獲諾貝爾獎(jiǎng)、圖靈獎(jiǎng)。
第一,分析和理解。什么叫分析和理解?就是我在上面講,你聽(tīng)見(jiàn)了,如果你明白我講什么了,在理解、思考我講的什么,這個(gè)過(guò)程就是一個(gè)分析和理解的過(guò)程。
第二,生成和應(yīng)用。什么叫生成和應(yīng)用?我講了之后,我們(人與人)進(jìn)行對(duì)話、進(jìn)行溝通,我講了一句話你聽(tīng)懂反過(guò)來(lái)你要回答我,這就是一個(gè)互動(dòng)和生成的過(guò)程。自然語(yǔ)言還有很多應(yīng)用的過(guò)程。
第三,一個(gè)自然語(yǔ)言處理系統(tǒng)還要做一件事情,就是要有動(dòng)作。比如對(duì)機(jī)器人講:“給我倒一杯咖啡”;機(jī)器人聽(tīng)懂了,它說(shuō):“好的,主人,我給你倒一杯咖啡”。不要說(shuō)好的,然后不動(dòng),這是不對(duì)的。
圖3 自然語(yǔ)言處理系統(tǒng)
總之,自然語(yǔ)言處理方法目前可以概括四個(gè)方法:
第一,自然語(yǔ)言處理本身算法和理論。作為一門學(xué)科,它有自己的問(wèn)題、規(guī)則和方法,要定義什么叫詞法、句法、語(yǔ)義,以及其相應(yīng)的分析算法。
第二,更抽象一點(diǎn),從人工智能和機(jī)器學(xué)習(xí)角度講,包括規(guī)則、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)的方法和目前比較熱深度學(xué)習(xí)的方法。再過(guò)幾年之后,隨著研究的深入,肯定會(huì)出現(xiàn)新方法取代深度學(xué)習(xí)。對(duì)這些方法抽象化,要解決自然語(yǔ)言處理時(shí),要解決表示、推理和學(xué)習(xí)三個(gè)問(wèn)題。表示什么意思?一個(gè)自然語(yǔ)言在計(jì)算機(jī)里怎樣表達(dá)出來(lái),語(yǔ)意、句話、篇章怎么表達(dá)。
第三,推理。
第四,學(xué)習(xí)過(guò)程。如圖4所示。
圖4 自然語(yǔ)言處理方法
自然語(yǔ)言分析、理解和生成,嚴(yán)格意義上講這是自然語(yǔ)言處理最核心的兩個(gè)問(wèn)題。自然語(yǔ)言處理應(yīng)用有兩個(gè)層面,第一個(gè)是自然語(yǔ)言處理本身的直接應(yīng)用;第二個(gè)是自然語(yǔ)言處理在行業(yè)的應(yīng)用。本身的應(yīng)用很多人都知道,比如問(wèn)答、對(duì)話系統(tǒng)、機(jī)器翻譯、自動(dòng)文摘、機(jī)器寫作等,這是自然語(yǔ)言處理本身的應(yīng)用。自然語(yǔ)言處理在各行各業(yè)都可以得到應(yīng)用,比如搜索、國(guó)際交流、教育、醫(yī)療、司法、金融,以及在公共安全、國(guó)防、旅游等行業(yè)應(yīng)用。以教育為例就有很多,如對(duì)小孩的輔導(dǎo)和教學(xué),無(wú)論學(xué)數(shù)學(xué)還是學(xué)英語(yǔ),高考機(jī)器人等。
自然語(yǔ)言處理的歷史,從廣義理解,一直到秦朝、古希臘時(shí)代。真正的自然語(yǔ)言處理在計(jì)算機(jī)誕生之后,從1950年起就有了。為什么叫做forever?因?yàn)檎Z(yǔ)言本身是人類區(qū)別于動(dòng)物的一個(gè)標(biāo)志,是最智能的行為,如果把語(yǔ)言研究透了,就可以解決人工智能一系列問(wèn)題。這個(gè)問(wèn)題只有人存在,只要對(duì)人本身沒(méi)有研究透徹,這個(gè)問(wèn)題就可以一直研究下去。
為什么在人工智能時(shí)代,自然語(yǔ)言處理這么熱?
第一,技術(shù)取得了巨大進(jìn)步,雖然離真正解決問(wèn)題還差很遠(yuǎn);
第二,產(chǎn)業(yè)落地的巨大需求。
以前我認(rèn)為,自然語(yǔ)言處理技術(shù)沒(méi)有成熟到達(dá)到產(chǎn)業(yè)需求的下限。目前自然語(yǔ)言處理在很多應(yīng)用上已經(jīng)達(dá)到產(chǎn)業(yè)需求的下限。有產(chǎn)業(yè)落地,就催生了技術(shù)需求,技術(shù)達(dá)到了產(chǎn)業(yè)落地的基本需求,反過(guò)來(lái)大大推動(dòng)了技術(shù)進(jìn)步。在人工智能時(shí)代,自然語(yǔ)言處理這么熱是大勢(shì)所趨。
機(jī)器能不能理解人類自然語(yǔ)言?舉一個(gè)簡(jiǎn)單例子,我買件衣服是紅色的,很高興,所有人對(duì)這句話都能理解。但對(duì)計(jì)算機(jī)來(lái)說(shuō),它翻譯成英文(見(jiàn)圖5),這是今天早上的翻譯結(jié)果,我測(cè)了很多機(jī)器翻譯系統(tǒng),幾乎沒(méi)有一句話對(duì)的。但是你問(wèn)機(jī)器,誰(shuí)是紅色的?機(jī)器可能說(shuō)衣服是紅色的,也可能說(shuō)我是紅色的;如果問(wèn)誰(shuí)高興,機(jī)器可能會(huì)想到我高興、衣服高興,甚至?xí)氲郊t色高興。翻譯成英文的話,省略都要補(bǔ)齊。
圖5 機(jī)器翻譯示例1
另外一個(gè)例子。一天,小老虎看見(jiàn)一只貓?jiān)谧嚼匣ⅲ硎置艚荩w慕極了。這是《老虎和貓學(xué)本領(lǐng)》中的一句話,非常簡(jiǎn)單。當(dāng)給我女兒讀故事書時(shí),怕她不理解,經(jīng)常問(wèn)她,爸爸給你讀完這個(gè)故事你聽(tīng)懂了嗎?爸爸講什么?你能講一遍不?她最后都煩了,你為什么老問(wèn)我這些問(wèn)題?我說(shuō)什么叫敏捷?什么叫羨慕?她想了想,不知道,然后她問(wèn)我。我一想我也不知道,我怎么給小孩解釋什么叫敏捷、什么叫羨慕。于是去Google圖片搜索“敏捷”,有一只老虎跑來(lái)跑去;“羨慕”就用表情表達(dá),我女兒就明白差不多了。但是這對(duì)機(jī)器來(lái)說(shuō)有點(diǎn)“強(qiáng)人所難”。我又問(wèn)我女兒,既然你和我說(shuō)你理解了身手敏捷和羨慕極了,我問(wèn)你,誰(shuí)身手敏捷,誰(shuí)羨慕誰(shuí)?她一看問(wèn)題比較難就亂講了,一會(huì)說(shuō)老鼠身手敏捷,一會(huì)又說(shuō)貓、又說(shuō)老虎。如果從機(jī)器角度來(lái)講,她說(shuō)的都沒(méi)錯(cuò)。誰(shuí)羨慕誰(shuí)都可以?老鼠羨慕貓,我每天被你抓來(lái)抓去的,不過(guò)我辛辛苦苦偷了這么多東西還要被你吃;老虎羨慕貓,貓羨慕老虎都可以。從人的角度來(lái)講沒(méi)有任何問(wèn)題,我們有很多常識(shí),小孩沒(méi)有,機(jī)器沒(méi)有。我舉這個(gè)例子不是說(shuō)自然語(yǔ)言處理太難,機(jī)器做不了,我提醒大家不要太樂(lè)觀,不要覺(jué)得人工智能發(fā)展,人類就要?dú)纾h(yuǎn)遠(yuǎn)達(dá)不到這個(gè)水平。
第三個(gè)例子,籃球放不進(jìn)箱子里,太大了,太小了,形狀不對(duì)。大家肯定知道,第一,籃球太大了,不可能箱子太大。但是問(wèn)機(jī)器,機(jī)器就開(kāi)始亂猜了。第二,太小了,形狀不對(duì),大家都能解決這些問(wèn)題。但是機(jī)器必須要有知識(shí)庫(kù)、要有推理、要有常識(shí)才能解決這個(gè)問(wèn)題。再看機(jī)器翻譯的結(jié)果,完全沒(méi)有對(duì)這句話進(jìn)行理解,“身手敏捷、羨慕極了”,從英文翻譯來(lái)看,看不出任何修飾關(guān)系(見(jiàn)圖6)。
圖6 機(jī)器翻譯示例2
這是被我抽象出來(lái)的例子,“我們班就一個(gè)女生,班上15個(gè)男生都喜歡她。B就問(wèn),那你喜歡她嗎?回答說(shuō)我們班有17位同學(xué)”。我到底喜歡還是不喜歡你?從正常角度講是不喜歡的,只是很委婉地不想傷那個(gè)女生的自尊心或者不好意思回答。對(duì)機(jī)器來(lái)說(shuō)不好回答,我女兒也沒(méi)理解。我們很多問(wèn)題隱含在語(yǔ)言、隱含在背后的推理和常識(shí),這些邏輯關(guān)系非常抽象。
我們?cè)倏醋詈笠粋€(gè)例子,這句話很有意思,這個(gè)題目是我女兒給我的。王師傅是賣魚的,每公斤魚進(jìn)價(jià)48元,現(xiàn)38元一斤,顧客買了兩公斤,給了王師傅200元假錢,王師傅沒(méi)零錢,于是找了鄰居換了200元。事后鄰居存錢過(guò)程中發(fā)現(xiàn)錢是假的,被銀行沒(méi)收了,王師傅又賠了鄰居200,請(qǐng)問(wèn)王師傅一共虧了多少?對(duì)計(jì)算機(jī)來(lái)說(shuō),怎么明白進(jìn)價(jià)、假錢的意思?這么簡(jiǎn)單例子,可以看出自然語(yǔ)言處理中常識(shí)和知識(shí)的重要性。
自然語(yǔ)言處理為什么這么難?下面從功能、知識(shí)、特點(diǎn)、語(yǔ)用性等方面闡述(見(jiàn)圖7)。第一,語(yǔ)言是對(duì)世界的認(rèn)識(shí),是對(duì)客觀、主觀世界所有能夠看到的東西、想到的東西的描述。第二,自然語(yǔ)言處理主要是基于語(yǔ)言學(xué)知識(shí),除了自然語(yǔ)言知識(shí)還有外部世界知識(shí)、領(lǐng)域知識(shí)、常識(shí)知識(shí)。第三,自然語(yǔ)言組合性、開(kāi)放性、動(dòng)態(tài)性。還有一個(gè)非常重要的特點(diǎn),是語(yǔ)用性。除了知識(shí)之外,對(duì)自然語(yǔ)言處理要解決另外一個(gè)最重要的問(wèn)題,就是語(yǔ)言是有特點(diǎn)和環(huán)境的,尤其在對(duì)話過(guò)程中是有上下文、有信息、有意圖的。
圖7 自然語(yǔ)言處理為什么這么難?
2.
自然語(yǔ)言處理方法
學(xué)科的內(nèi)涵和外延
自然語(yǔ)言處理方法到底是什么?首先要定義如圖1所示的學(xué)科內(nèi)涵、外延和邊界。自然語(yǔ)言處理三件事,即分析理解、生成和應(yīng)用、動(dòng)作。內(nèi)涵是分析理解和生成;多語(yǔ)言處理、跨語(yǔ)言和單語(yǔ)言理解有不同特點(diǎn),我把多語(yǔ)言處理也作為自然語(yǔ)言處理學(xué)科內(nèi)涵,包括對(duì)詞法分析、句法分析、語(yǔ)意分析和篇章分析。自然語(yǔ)言生成從內(nèi)部表示生成自然語(yǔ)言的表達(dá)。多語(yǔ)言處理就是語(yǔ)言之間的對(duì)齊和轉(zhuǎn)換。這就是自然語(yǔ)言處理學(xué)科內(nèi)涵問(wèn)題,也就是“聽(tīng)得懂、講明白”。學(xué)科外延有機(jī)器翻譯、文本分類、信息檢索、機(jī)器對(duì)答等自然語(yǔ)言本身的直接應(yīng)用和自然語(yǔ)言處理加行業(yè)(見(jiàn)圖8)。下面對(duì)內(nèi)涵和外延所要解決的問(wèn)題,給大家解釋一下。
圖8 自然語(yǔ)言處理的外延(應(yīng)用)
分詞
第一是分詞,意思是人聽(tīng)一句話之后理解的是以詞為單位,而不是以句子為單位。計(jì)算機(jī)要解決第一個(gè)問(wèn)題就是分詞。舉個(gè)例子,“嚴(yán)守一把手機(jī)關(guān)了”有非常多歧義,一把手、機(jī)關(guān)都是詞,這里只有一個(gè)正確分詞結(jié)果就是“嚴(yán)守一/把/手機(jī)/關(guān)了”。自然語(yǔ)言處理解決第一個(gè)問(wèn)題就是分詞,目前我們把它叫做序列標(biāo)注方法。
一個(gè)圖
B是開(kāi)始,I是中間,E是結(jié)束,S是單個(gè);B又是開(kāi)始,E又是結(jié)束;“關(guān)”是單獨(dú),“了”也是單獨(dú)。這個(gè)字到底是一個(gè)詞的開(kāi)始還是一個(gè)詞的中間,還是一個(gè)詞的結(jié)束,還是這個(gè)字本身就是單獨(dú)的。這就是目前分詞所用到的數(shù)學(xué)模型。目前主要包括兩種方法,第一種是基于離散特征的CRF;第二種是神經(jīng)網(wǎng)絡(luò)的方法。
自然語(yǔ)言分詞挑戰(zhàn)有五個(gè)。
第一,交叉歧義、分真歧義和偽歧義,如乒乓球拍賣完了,這就是一個(gè)真歧義。
第二,新詞不斷涌現(xiàn)。
第三,領(lǐng)域移植問(wèn)題,如在新聞?lì)I(lǐng)域做得非常好,如果放在法律領(lǐng)域、醫(yī)療領(lǐng)域就不一樣。
第四,數(shù)據(jù)融合問(wèn)題。到底什么是詞?不同人有不同鑒別。現(xiàn)在有各種各樣的語(yǔ)料,分詞標(biāo)準(zhǔn)不同,在理解這些問(wèn)題時(shí)怎么樣進(jìn)行標(biāo)注和融合?
第五,粒度不同的問(wèn)題。
分詞進(jìn)展包括四個(gè)方面。
第一,深度學(xué)習(xí)方法,使分詞定義有了進(jìn)一步提高。
第二,網(wǎng)絡(luò)文本分詞數(shù)據(jù)的人工標(biāo)注,這是由于在互聯(lián)網(wǎng)時(shí)代,尤其互聯(lián)網(wǎng)公司產(chǎn)生了巨大的需求,對(duì)網(wǎng)絡(luò)文本分詞有了進(jìn)展。
第三,多源異構(gòu)數(shù)據(jù)的融合和利用。第四,多粒度分詞。
如圖9所示,第一個(gè)句子“特別是我國(guó)經(jīng)濟(jì)下滑”,在CTB,“特別是”做一個(gè)詞,如果在PD描述,把“特別是”分開(kāi),“我國(guó)”也是。第二個(gè)是“全國(guó)各地醫(yī)學(xué)界專家走出人民大會(huì)堂”,可以看到兩個(gè)分詞標(biāo)準(zhǔn)完全不同。統(tǒng)計(jì)表明,90%詞一致性都做不到,這是一個(gè)很大的問(wèn)題。還有分詞的粒度問(wèn)題,不同人對(duì)詞語(yǔ)認(rèn)知不同,包括生活環(huán)境、體系不同。還有漢語(yǔ)語(yǔ)素和合成詞的界限很模糊,這也是一個(gè)問(wèn)題。在1996年,Sproat教授一個(gè)實(shí)驗(yàn)結(jié)果表明,中文的native speaker分詞一致率僅76%。
圖9 分詞的粒度
粗粒度分詞和細(xì)粒度分詞有不同的需求。以前一個(gè)互聯(lián)網(wǎng)公司高層人員說(shuō),分詞不需要做了,我們每天有這么多數(shù)據(jù),每天新詞都能發(fā)現(xiàn),每天分詞結(jié)果都很準(zhǔn)確。于是讓我的學(xué)生給他一些文章,測(cè)一下其分詞結(jié)果怎樣?結(jié)果可想而知。所以分詞的問(wèn)題從這里可以看出,遠(yuǎn)沒(méi)有解決。
如何能夠在多源異構(gòu)數(shù)據(jù)中學(xué)習(xí)?我們現(xiàn)在用的分詞系統(tǒng)還是機(jī)器協(xié)同的系統(tǒng),有了這么多異構(gòu)數(shù)據(jù),怎樣能夠?qū)W出好的分詞模型,這也是目前研究的熱點(diǎn)。多粒度分詞也是這樣,不像最開(kāi)始講的,把分詞看成線性序列問(wèn)題,現(xiàn)在把分詞做成一棵樹(shù),樹(shù)的任何一個(gè)節(jié)點(diǎn)都可以看作是一個(gè)詞。如圖9所示,如果醫(yī)學(xué)界在圖中1這個(gè)節(jié)點(diǎn),醫(yī)學(xué)就是一個(gè)詞;如果在圖中2這個(gè)節(jié)點(diǎn),醫(yī)學(xué)界就是一個(gè)詞。這是目前研究比較有意思的現(xiàn)象,我們叫做多粒度分詞。
圖10 基于樹(shù)結(jié)構(gòu)的多粒度分詞示例
命名實(shí)體
在多源數(shù)據(jù)融合,研究的都是基于模糊標(biāo)注的耦合序列學(xué)習(xí),還有基于樹(shù)結(jié)構(gòu)的多粒度分詞。作為自然語(yǔ)言處理要解決第一個(gè)問(wèn)題就是分詞問(wèn)題,第二個(gè)問(wèn)題就是命名實(shí)體識(shí)別問(wèn)題。“周潤(rùn)發(fā)出生香港南丫島,籍貫廣東開(kāi)平”,這里有很多命名實(shí)體(見(jiàn)圖11)。命名實(shí)體就是指人名、地名、組織機(jī)構(gòu)名、產(chǎn)品名和時(shí)間等;還有很多專有名詞,我們也叫做命名實(shí)體。比如,昆蟲的名字在生物學(xué)界就是很難解決的問(wèn)題。據(jù)說(shuō)在英文里,昆蟲的種類大概有幾百萬(wàn)種,如為每一只昆蟲命名是很難的問(wèn)題。如圖10所示就出現(xiàn)了非常多的命名實(shí)體。
圖11 命名實(shí)體示例
要解決第二個(gè)問(wèn)題,怎樣能夠把命名實(shí)體識(shí)別出來(lái)。
命名實(shí)體識(shí)別方法有兩種:
第一,規(guī)則系統(tǒng);第二,基于機(jī)器學(xué)習(xí)的學(xué)習(xí)系統(tǒng)。
研究難點(diǎn)包括三個(gè)方面:
第一,新領(lǐng)域舊實(shí)體類別識(shí)別。在新的領(lǐng)域里面,實(shí)體沒(méi)有變過(guò),但是領(lǐng)域發(fā)生變化;第二,新實(shí)體新類別,以前沒(méi)有這個(gè)類別,現(xiàn)在出現(xiàn)新的類別怎么樣定義、發(fā)現(xiàn)出來(lái);第三,方法,這是目前研究的熱點(diǎn)和難點(diǎn)。
句法分析
有了分詞、命名實(shí)體,下一步要做的就是句法分析。句法分析要研究的問(wèn)題就是,從結(jié)構(gòu)的角度,這些詞為什么能夠組成一個(gè)句子?就是說(shuō),在這個(gè)句子內(nèi)部,這些詞到底有什么關(guān)系?這里以依存句法分析為例(見(jiàn)圖12)。輸入是一個(gè)句子的詞系列,輸出的是依存關(guān)系句法樹(shù)。這些對(duì)應(yīng)關(guān)系我們能夠知道的,或者以前學(xué)過(guò)的,比如主、謂、賓、定、狀、補(bǔ)。這是目前在學(xué)術(shù)界或者工業(yè)界常用的句法樹(shù)庫(kù),第一個(gè)是格位語(yǔ)法;第二個(gè)是短語(yǔ)結(jié)構(gòu)文法;第三個(gè)是依存語(yǔ)法。
圖12 依存句法分析示例
表1所示的這些句法樹(shù)之間,由于不同的人后面有不同的學(xué)術(shù)背景和認(rèn)知背景,都是不完全兼容的。
表1句法樹(shù)庫(kù)
句法分析方法有兩種:
第一,圖的方法;
第二是轉(zhuǎn)移方法。
從全圖里,怎樣能找到子圖。基于轉(zhuǎn)移的方法是狀態(tài)的轉(zhuǎn)移,每個(gè)狀態(tài)代表了N個(gè)結(jié)構(gòu)里的公共部分。狀態(tài)的方法叫做移進(jìn)規(guī)約的方法。這是句法分析的性能,從圖13可以看到性能進(jìn)步非常快,尤其在2016和2017年。2016年Google提出了基于深度學(xué)習(xí)的轉(zhuǎn)移句法分析方法,2017年斯坦福提出了基于深度學(xué)習(xí)的圖分析方法, 所以目前有近10%的性能進(jìn)步。英文比中文性能高8%~10%;英文句法分析如果在學(xué)術(shù)界里標(biāo)準(zhǔn)測(cè)試題達(dá)到90%~95%,中文86%的水平。
圖13 句法分析性能
句法分析的難點(diǎn)有兩個(gè):
第一,處理網(wǎng)絡(luò)文本時(shí)準(zhǔn)確率急劇下降5%~10%,我們和企業(yè)合作時(shí)也發(fā)現(xiàn)了這個(gè)問(wèn)題。不僅句法分析有這個(gè)問(wèn)題,同樣分詞也有這樣的問(wèn)題,分詞可以下降到20%。
第二,語(yǔ)義知識(shí)和外部知識(shí)的利用。
研究熱點(diǎn)包括兩部分:
第一,資源構(gòu)建,局部標(biāo)注的主動(dòng)學(xué)習(xí)和樹(shù)庫(kù)轉(zhuǎn)換。樹(shù)庫(kù)標(biāo)準(zhǔn)、規(guī)范不一樣,而且要在企業(yè)標(biāo)新的樹(shù)庫(kù)出來(lái),怎樣把樹(shù)庫(kù)轉(zhuǎn)換成標(biāo)準(zhǔn)格式,從而能充分利用起來(lái)?
第二,知識(shí)驅(qū)動(dòng)的句法分析。
到目前為止分享了分詞、命名實(shí)體,還有句法分析。下一步進(jìn)入語(yǔ)義分析,輸入是自然語(yǔ)言的句子,輸出是自然語(yǔ)言句子含義的結(jié)構(gòu)化和機(jī)器可讀的表示。語(yǔ)義不像句法,句法有標(biāo)準(zhǔn)的表達(dá)形式,在語(yǔ)義層面還沒(méi)有形成一個(gè)大家公認(rèn)的、可計(jì)算的、深層次的、能夠在計(jì)算機(jī)里面可用的,在學(xué)術(shù)界得到充分認(rèn)可的表達(dá)。不同的應(yīng)用語(yǔ)義表達(dá)方法也不一樣,分析方法也不一樣。
語(yǔ)義表達(dá)有三種:
第一,淺層語(yǔ)義分析,回答誰(shuí)做了什么,什么時(shí)候做的,為什么這么做,怎么做的。
第二,邏輯語(yǔ)義分析,是基于邏輯表達(dá)式的分析。
第三,抽象語(yǔ)義表示是南加州大學(xué)提出的ARM。
方法分三種:
第一,基于同步上下文無(wú)關(guān)文法。
第二,基于組合范疇語(yǔ)法。
第三,在上述兩種方法加了神經(jīng)網(wǎng)絡(luò)的,基于神經(jīng)網(wǎng)絡(luò)序列到序列方法。
語(yǔ)義分析性能以ARM為例子,1-10個(gè)詞率達(dá)到75%,這是稍微簡(jiǎn)單一點(diǎn)的;如果句子長(zhǎng)一些,30、40、50個(gè)詞,性能則急劇下降。這是目前語(yǔ)義分析的性能現(xiàn)狀。
篇章分析
到目前為止我們討論了分詞、實(shí)體、句法、語(yǔ)義,下面看一下篇章的分析。篇章是什么?“比爾來(lái)自美國(guó),今天交通非常擁擠。長(zhǎng)江貫穿中國(guó)多個(gè)省市。因此,自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的融合。”讀完這句話以后,發(fā)現(xiàn)每句話都沒(méi)錯(cuò),拿出其中任何一句話都覺(jué)得是有意義的,但是放在一起,覺(jué)得這個(gè)人語(yǔ)無(wú)倫次了,邏輯有問(wèn)題。第二句話,“這里交通非常擁擠,張先生早上6:40之前就得出發(fā)。常常會(huì)提前半個(gè)小時(shí)到辦公室;如果稍晚一點(diǎn),他很可能會(huì)遲到。”同樣一句話,第一句話比第二句話講得還冠冕堂皇,好像文風(fēng)更好,但是第一句話表達(dá)不出任何意思,第二句話就表達(dá)了完整的意義。篇章是做什么?為什么三個(gè)句子、四個(gè)句能夠按照一定順序講,為什么不顛倒過(guò)來(lái)?這些句子到底有什么關(guān)系?篇章就是解決這些問(wèn)題的。人在理解自然語(yǔ)言時(shí)是以篇章為單位,不能斷章取義就是這個(gè)意思。
這是學(xué)術(shù)界老前輩宋柔老先生的例子,《圍城》里有一句話:“高松年發(fā)奮辦公,夙夜匪懈,精明得真是睡覺(jué)還睜著眼睛,戴著眼睛,做夢(mèng)都不含糊的。搖籃也挑選得很好,在平成縣鄉(xiāng)下一個(gè)本地財(cái)主家的花園里,面溪背山。” 一個(gè)逗號(hào)到底,中間有一個(gè)句號(hào)。讀完雖然有點(diǎn)繞口,基本上能明白它意思。但是這些句子和句子的關(guān)系非常復(fù)雜,它們到底有什么關(guān)系?“帶著眼鏡和睜著眼睛”之間有并列關(guān)系,從計(jì)算機(jī)角度一定要明確;“做夢(mèng)都不含糊”,做夢(mèng)和睡覺(jué)也是并列關(guān)系。。
看另外一個(gè)例子。“如果你不出面干預(yù),他即使把設(shè)備賣了,也沒(méi)人組織得了他。”這里隱含什么關(guān)系?轉(zhuǎn)折關(guān)系、因果關(guān)系或者假設(shè)關(guān)系。這些關(guān)系如果分析不清楚,自然語(yǔ)言處理應(yīng)用,比如理解、問(wèn)答、對(duì)話都做不了。
篇章分析到底要做什么?其實(shí)就是要解決兩個(gè)問(wèn)題,一個(gè)是篇章結(jié)構(gòu);還有一個(gè)是篇章特征。篇章結(jié)構(gòu)包括剛才看到的邏輯語(yǔ)義結(jié)構(gòu)、話題結(jié)構(gòu)、指代結(jié)構(gòu)、功能結(jié)構(gòu)和事件結(jié)構(gòu)等。除了功能結(jié)構(gòu)之外,其他幾個(gè)結(jié)構(gòu)目前在自然語(yǔ)言處理都有所研究(都是非常難的問(wèn)題)。篇章的基本特征包括銜接性、連貫性、意圖性、可接受性、信息性、情景性和跨篇章性七個(gè),目前學(xué)術(shù)界研究最多的還是銜接性和連貫性。銜接性指的是你在一段話或在一篇文章里講這個(gè)詞時(shí),主題基本上都會(huì)用一個(gè)詞、用同樣的詞,不會(huì)跳來(lái)跳去,不會(huì)發(fā)生很大變化,這就叫做詞匯鏈的概念。連貫性指的是結(jié)構(gòu)。
篇章分析語(yǔ)言學(xué)理論有中心理論、脈絡(luò)理論、篇章表示理論等,我們統(tǒng)稱叫做修辭結(jié)構(gòu)理論(RST)。RST對(duì)從事計(jì)算機(jī)語(yǔ)言的人影響非常大。目前最大的中英文篇章標(biāo)注樹(shù)庫(kù)基本上都是基于RST,在它的基礎(chǔ)上進(jìn)行小幅度改進(jìn)所標(biāo)注。這些篇章分析的庫(kù),我們叫做篇章樹(shù)庫(kù)。
篇章分析的目標(biāo)就是分析篇章所蘊(yùn)含的各種結(jié)構(gòu),以及構(gòu)成單元之間的各種語(yǔ)義關(guān)系。其任務(wù):
第一,識(shí)別篇章基本單元;
第二,識(shí)別這些單元之間的篇章關(guān)系。
篇章分析有三種方法:
第一種是線性;
第二種是組塊方法;
第三種是樹(shù)結(jié)構(gòu)方法。
篇章里一直在講修辭結(jié)構(gòu),到底有什么用?
第一個(gè)修辭結(jié)構(gòu)。“張三才30出頭,既沒(méi)有什么學(xué)歷,又沒(méi)有多少新的工作經(jīng)驗(yàn),但是不論干什么,他都非常認(rèn)真,所以處長(zhǎng)總是把一些重要的任務(wù)交給他。”這句話跳來(lái)跳去。問(wèn)的問(wèn)題是,為什么處長(zhǎng)總把一些重要任務(wù)交給他?如果篇章分析做不好,這個(gè)問(wèn)題沒(méi)法回答,只有在篇章分析基礎(chǔ)上,我們回答,最終原因是,他不論干什么,都非常認(rèn)真,所以處長(zhǎng)才把任務(wù)交給他。
第二個(gè)話題結(jié)構(gòu)。“我昨天上街看見(jiàn)一個(gè)人,長(zhǎng)得很魁梧,穿著軍大衣,買了兩斤肉。”這句話比較通俗。問(wèn)題是誰(shuí)買了兩斤肉?無(wú)外乎就是兩個(gè)答案,一個(gè)是我;一個(gè)是看見(jiàn)的那個(gè)人。如果篇章分析不出來(lái),完全給不出答案,所以篇章非常重要。
自然語(yǔ)言生成
分詞、命名實(shí)體為代表的詞法、句法、語(yǔ)義、篇章這是分析和理解層次,它們是自然語(yǔ)言處理或者自然語(yǔ)言理解必須要解決、要做的事情,這是最核心的科學(xué)問(wèn)題;此外還有生成。
自然語(yǔ)言生成和分析比起來(lái),研究差得很多。
造成這種情況的原因無(wú)外乎兩點(diǎn):
第一,生成是基于分析的,如果分析做不好,生成也很難做好;
第二,以前產(chǎn)業(yè)界對(duì)生成沒(méi)有很大的需求,尤其是近三年或者近五年,隨著人機(jī)對(duì)話、問(wèn)答,對(duì)生成的要求越來(lái)越高。
2000—2005年在國(guó)際會(huì)議上舉辦一個(gè)自然語(yǔ)言生成的比賽沒(méi)有人參加,但現(xiàn)在自然語(yǔ)言生成變得尤其重要。一個(gè)系統(tǒng)要做人機(jī)交互,要把自己的想法用自然語(yǔ)言表達(dá)出來(lái),表達(dá)得好壞直接決定用戶體驗(yàn),生成就變得非常有用。自然語(yǔ)言生成有基于規(guī)則方法、基于知識(shí)庫(kù)檢索方法和基于深度學(xué)習(xí)的方法。
到此為止,對(duì)自然語(yǔ)言處理方法介紹了詞法、句法、語(yǔ)義和篇章,在生成這個(gè)層次介紹了生成的所采用的不同的方法。
3.
自然語(yǔ)言處理應(yīng)用
自然語(yǔ)言處理應(yīng)用包括兩方面,第一方面是自然語(yǔ)言處理本身應(yīng)用;第二方面是自然語(yǔ)言處理+行業(yè)。下面介紹幾個(gè)代表性的自然語(yǔ)言處理應(yīng)用。
情緒和情感分析
情感和情緒不同。
情感分析主要對(duì)產(chǎn)品評(píng)論和新聞文本表達(dá)的意見(jiàn)、情感、情緒、主客觀性、評(píng)價(jià)等方面的研究。情感分析在工業(yè)界和學(xué)術(shù)界已經(jīng)有著廣泛的應(yīng)用,比如輿情監(jiān)測(cè),我國(guó)做得非常好;還有企業(yè)征信、聊天服務(wù)機(jī)器人等做得也好。情感包括正面、負(fù)面和中性三個(gè)方面。如圖14所示,“這部電影情節(jié)還不錯(cuò),我很喜歡,但是這家影院的3D效果太爛,以后不會(huì)再來(lái)了。”如果在句子層面,這個(gè)層面是正面;句子二是負(fù)面;既有正面也有負(fù)面,綜合評(píng)價(jià)是負(fù)面,他不會(huì)再來(lái)。
圖14 情感分析示例
情感非常重要。學(xué)術(shù)界一般做情感分析都是做一個(gè)句子或者一篇文章,在我們和某電商公司合作之后,發(fā)現(xiàn)了很多在學(xué)術(shù)界所看不到的問(wèn)題。在電商領(lǐng)域有很多用戶,用戶和用戶之間、用戶和客服之間進(jìn)行交流,產(chǎn)生了很多新的科學(xué)問(wèn)題和應(yīng)用場(chǎng)景,比如基于問(wèn)答的情感分析,以及基于單產(chǎn)品、單一問(wèn)答多用戶的情感分析。這些問(wèn)題都是在實(shí)際中電商公司必須解決的,都是學(xué)術(shù)界沒(méi)有意識(shí)到的問(wèn)題,沒(méi)有數(shù)據(jù),沒(méi)有要求,也沒(méi)有科學(xué)問(wèn)題的驅(qū)動(dòng),但是企業(yè)界有這樣需求,一歸納就發(fā)現(xiàn)了很多的科學(xué)問(wèn)題和實(shí)際應(yīng)用。
情緒就是喜怒哀驚,難過(guò)、新奇、憤怒等。比如,“今天學(xué)發(fā)了國(guó)家獎(jiǎng)學(xué)金太開(kāi)心了。明天就去買個(gè)LV包包。”這個(gè)情緒第一個(gè)是太開(kāi)心;,第二個(gè)產(chǎn)生的結(jié)果就是買個(gè)LV包包,這就是情緒分析。模型從機(jī)器角度來(lái)講,各個(gè)方法都有。問(wèn)題驅(qū)動(dòng)是做自然語(yǔ)言處理更感興趣的,那就是情感和情緒分析到底要哪些解決問(wèn)題。然后分析完之后又挨個(gè)做一遍。
問(wèn)答系統(tǒng)
自然語(yǔ)言處理應(yīng)用,第一個(gè)就是情感和情緒;第二個(gè)是問(wèn)答。問(wèn)答也非常有意思,問(wèn)答輸入自然語(yǔ)言句子,輸出是精準(zhǔn)答案。但是很多情況下給不出一個(gè)精準(zhǔn)答案,很多答案是主觀的,或者很多答案你認(rèn)為正確,但是不敢說(shuō)、不能說(shuō)。問(wèn)答任務(wù)分為社區(qū)問(wèn)答、基于知識(shí)的問(wèn)答、垂直領(lǐng)域問(wèn)答、開(kāi)放領(lǐng)域問(wèn)答、閱讀理解等。
問(wèn)答的分類也有很多種。事實(shí)類,2018中國(guó)人工智能大會(huì)在哪里召開(kāi)?深圳。描述性問(wèn)答,這款新發(fā)布的手機(jī)有什么特點(diǎn)?過(guò)程性問(wèn)答,護(hù)照怎么申請(qǐng)辦理?需要計(jì)算的問(wèn)答,飛巴黎和飛洛杉磯最短的時(shí)間差多少?這相對(duì)難一些,要找到飛巴黎和飛洛杉磯的時(shí)間,然后互相減掉。很多小學(xué)應(yīng)用題里蘊(yùn)含很多對(duì)自然語(yǔ)言處理很難,以及很多推理、常識(shí)性又是可計(jì)算性的東西。推理因果關(guān)系,為什么中國(guó)會(huì)發(fā)生疫苗事件?這個(gè)答案不唯一,政府發(fā)言人是一個(gè),敵對(duì)勢(shì)力是一個(gè),受害小孩家長(zhǎng)也是一個(gè),憤青是一個(gè)。觀點(diǎn)性問(wèn)答,你對(duì)疫苗事件和中美貿(mào)易戰(zhàn)有何看法?二者有關(guān)系嗎?如果讓小冰回答,小冰估計(jì)會(huì)說(shuō)“跟我沒(méi)關(guān)系,我不告訴你”,這也是一種回答。
問(wèn)答分類分析和理解分為一階和二階,一階比較簡(jiǎn)單,比如喜馬拉雅山有多高?二階問(wèn)答,比如《紅樓夢(mèng)》作者還寫過(guò)哪些書?還有更復(fù)雜的,經(jīng)常用的例子,謝霆峰前妻的什么之類,繞了很多圈最后又繞到謝霆峰這里,推理得非常翔實(shí)。這也是一階、二階邏輯。第二就是要做好問(wèn)題分類、分析和理解,要做好答案的匹配和檢索。第三個(gè)是答案生成。要看問(wèn)題是什么,歸歸類,作者意圖是什么。答案匹配和檢索,既然把問(wèn)題分好了,總要找到答案,無(wú)論是知識(shí)庫(kù)、社區(qū)還是互聯(lián)網(wǎng)要匹配和檢索出來(lái)。答案生成可能涉及到推理、涉及到知識(shí)圖譜、組合、指代等很多東西,一個(gè)問(wèn)答系統(tǒng)需要做好這三個(gè)模塊。
問(wèn)答發(fā)展歷史和人工智能歷史是一樣的。現(xiàn)在測(cè)試人工智能要進(jìn)行圖靈測(cè)試,這就是一個(gè)問(wèn)答系統(tǒng);后面有TREC、IBM沃森、社區(qū)問(wèn)答、看圖說(shuō)話等。
問(wèn)答有四個(gè)難點(diǎn):
第一,多源異構(gòu)大數(shù)據(jù)背景下開(kāi)放域問(wèn)答瓶頸;
第二,語(yǔ)義理解問(wèn)題;
第三,知識(shí)庫(kù)與知識(shí)圖譜問(wèn)題;
第四,多模態(tài)場(chǎng)景下的問(wèn)答(就是常說(shuō)的看圖說(shuō)話)。
研究方法:
第一,針對(duì)多源異構(gòu)大數(shù)據(jù)以前用IR方法,目前就是IR+閱讀理解的方法。
第二,深度理解主要抽取的方法,現(xiàn)在抽取+生成的方法。生成是問(wèn)答非常重要的一環(huán),目前生成式問(wèn)答已經(jīng)成為主流。
第三,知識(shí)圖譜以后專門介紹。
第四,多模態(tài)場(chǎng)景下的問(wèn)答,最有趣的地方是要把語(yǔ)言學(xué)用的模型和圖像處理模型在一個(gè)框架下統(tǒng)一起來(lái);也就是說(shuō),要跨媒體、跨模態(tài)的特征共享、獨(dú)立和抗依賴。
問(wèn)答系統(tǒng)有什么樣的應(yīng)用?圖15是在網(wǎng)上找到人工智能行業(yè)圖譜,發(fā)現(xiàn)每個(gè)領(lǐng)域只要涉及人機(jī)交互都可以用到問(wèn)答。
圖15 人工智能行業(yè)圖譜
對(duì)話系統(tǒng)
對(duì)話系統(tǒng)不像問(wèn)答系統(tǒng)這么單純,一個(gè)是開(kāi)放域?qū)υ捪到y(tǒng);一個(gè)是封閉域?qū)υ捪到y(tǒng),或者面向任務(wù)驅(qū)動(dòng)的對(duì)話系統(tǒng)。比如銀行、客服、旅游就是封閉域?qū)υ捪到y(tǒng)。開(kāi)放就是隨便問(wèn)、隨便答。開(kāi)放域?qū)υ捪到y(tǒng)分兩種,一種是閑聊;一種是解決問(wèn)題。對(duì)話系統(tǒng)是綜合性問(wèn)題,主要涉及語(yǔ)言識(shí)別、語(yǔ)言理解、狀態(tài)跟蹤、自然語(yǔ)言生成和語(yǔ)音合成。
知識(shí)圖譜
圖16所示的是我們和某電商公司做的一個(gè)計(jì)劃,叫做藏經(jīng)閣計(jì)劃,是在國(guó)內(nèi)幾所科研機(jī)構(gòu)、大學(xué)在某電商公司支持下共同打造的。
圖16 藏經(jīng)閣計(jì)劃(知識(shí)圖譜)
第一個(gè)圖譜知識(shí)建模,就是人工智能內(nèi)涵里很重要的部分知識(shí)工程。知識(shí)工程一個(gè)非常核心的部分叫做知識(shí)建模。如果問(wèn)你,什么叫知識(shí)?大家回答不出來(lái)。經(jīng)常說(shuō),你有知識(shí)沒(méi)文化;有知識(shí)沒(méi)能力,你是一個(gè)書呆子。知識(shí)建模就是要解決這些問(wèn)題。我們每天都在講這些東西,怎么能用計(jì)算機(jī)表達(dá)出來(lái)?是用圖的表達(dá)還是用樹(shù)的表達(dá)?屬性是什么?這就是知識(shí)建模。有了建模之后,要進(jìn)行圖譜的構(gòu)建。圖譜包括很多,目前先講的都是實(shí)體之間的關(guān)系,再講實(shí)體的屬性。圖譜非常多,不僅有屬性。比如,某搜索公司做用戶意圖圖譜,某電商公司做用戶購(gòu)買力圖譜,還可以做事件圖譜。有了知識(shí)建模,有了知識(shí)圖譜構(gòu)建之外,下面要做的就是知識(shí)的融合。有各種各樣的圖譜,有各種各樣的知識(shí);化學(xué)第一章學(xué)的是有機(jī)化學(xué),下一章是無(wú)機(jī)化學(xué),怎么樣把知識(shí)融合起來(lái)?這就是知識(shí)融合解決的問(wèn)題。還有知識(shí)推理和計(jì)算。有了知識(shí)和圖譜這些靜態(tài)的東西,如果利用起來(lái),必須要有推理、要有計(jì)算的過(guò)程;有了推理和計(jì)算之后要賦能,人很會(huì)造詞。以前對(duì)賦能這個(gè)詞很反感,聽(tīng)時(shí)間長(zhǎng)了,慢慢也接受了。因?yàn)橛⑽牟皇悄愕哪刚Z(yǔ),沒(méi)有文化認(rèn)同感,沒(méi)有主人感,如果有一個(gè)新詞就會(huì)很容易接受;但是中文出了一個(gè)新詞,會(huì)思考這樣有沒(méi)有道理。
信息抽取
信息抽取做了幾件事情,第一,命名實(shí)體;第二個(gè)叫做mention,是指代的意思;還有關(guān)系,比如北大和清華有什么關(guān)系;還有事件的關(guān)系,比如講破案過(guò)程,肯定是先發(fā)生案件,然后被人發(fā)現(xiàn)了,警察去了開(kāi)始搜集線索,最后破案了,這就是事件的關(guān)系。
舉個(gè)例子,什么叫信息抽取?圖17所示的這段話很長(zhǎng),看起來(lái)是不是很費(fèi)力氣?如果用圖18所示的表格表示則非常簡(jiǎn)單,一看就明白了。信息抽取要做什么?信息抽取基本的任務(wù)就是要把那段話變成這種結(jié)構(gòu)化的表達(dá);也就是說(shuō),信息抽取就是要把非結(jié)構(gòu)化數(shù)據(jù)、自然語(yǔ)言數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù),或者非結(jié)構(gòu)化、或者半結(jié)構(gòu)化數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)。
圖17 非結(jié)構(gòu)化數(shù)據(jù)
圖18 結(jié)構(gòu)化數(shù)據(jù) (信息抽取的結(jié)果)
機(jī)器翻譯
機(jī)器翻譯有基于詞典的方法、基于規(guī)則轉(zhuǎn)換的方法、基于中間語(yǔ)言的方法、基于實(shí)例的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。舉個(gè)例子看看機(jī)器怎樣做機(jī)器翻譯(見(jiàn)圖19),輸入是“我們必須與友邦建立一種關(guān)系”。這個(gè)短語(yǔ)可以隨便劃分,我們必須與友邦建立關(guān)系。第二步是做短語(yǔ)翻譯,第一步先做短語(yǔ)切分,再做短語(yǔ)的翻譯;第三步做短語(yǔ)的轉(zhuǎn)化,翻譯結(jié)果就出來(lái)了。這是短語(yǔ)結(jié)構(gòu)的機(jī)器翻譯,非常簡(jiǎn)單。
圖19 短語(yǔ)結(jié)構(gòu)的機(jī)器翻譯
目前用的神經(jīng)網(wǎng)絡(luò)方法也非常簡(jiǎn)單(圖20)。首先把句子進(jìn)行切分,然后從左向右掃描一遍,再?gòu)挠蚁蜃髵呙枰槐椋瑨呙柽^(guò)程用的循環(huán)神經(jīng)網(wǎng)絡(luò)。掃描后這個(gè)句子形成一個(gè)向量,有了向量就產(chǎn)生了目標(biāo)源的詞,從左向右一個(gè)個(gè)產(chǎn)生。產(chǎn)生詞時(shí)要用到兩個(gè)條件,一個(gè)是狀態(tài)序列;另一個(gè)就是當(dāng)前詞和源語(yǔ)言每個(gè)詞的attention。神經(jīng)網(wǎng)絡(luò)方法比短語(yǔ)方法更簡(jiǎn)單,先是從左向右,然后是從右向左兩邊掃描,這是編碼過(guò)程;然后是從左向右解碼。
圖20 神經(jīng)網(wǎng)絡(luò)方法的機(jī)器翻譯
目前最新進(jìn)展是Google提出的Transformer方法,在大規(guī)模語(yǔ)料上比之前SMT提高了10個(gè)點(diǎn)。Transformer只需要一個(gè)叫做attention的東西,第一詞本身;第二詞的位置;第三個(gè)是詞與詞之間的attention進(jìn)行編碼。
機(jī)器翻譯的挑戰(zhàn):第一是知識(shí)建模和翻譯引擎,從句法到語(yǔ)義到知識(shí),沒(méi)有知識(shí)就沒(méi)有智能。第二,廣度和深度,廣度就是篇章,深度就是深度學(xué)習(xí)。第三,面向產(chǎn)業(yè)化需求,滿足國(guó)家重大需求。
上面講了自然語(yǔ)言處理方法和自然語(yǔ)言處理應(yīng)用,最后的自然語(yǔ)言處理+行業(yè),從目前的發(fā)展來(lái)看,自然語(yǔ)言處理在各行各業(yè)有非常大的需求。
4.
AI時(shí)代自然語(yǔ)言處理
AI時(shí)代自然語(yǔ)言處理有什么特點(diǎn)?第一非常熱;第二取得巨大進(jìn)步。技術(shù)進(jìn)步和產(chǎn)業(yè)需求推動(dòng)了行業(yè)的發(fā)展。特點(diǎn)包括表示、搜索、推理和學(xué)習(xí)三個(gè)方面。學(xué)習(xí)有各種各樣的學(xué)習(xí)方法,多任務(wù)學(xué)習(xí)、對(duì)抗學(xué)習(xí)、遷移學(xué)習(xí)等,這些都是自然語(yǔ)言處理發(fā)生的新框架(見(jiàn)圖21)。
圖21 AI時(shí)代自然語(yǔ)言處理的特點(diǎn)
最后簡(jiǎn)單介紹蘇州大學(xué)的自然語(yǔ)言處理。我們目前有200多人的自然語(yǔ)言處理團(tuán)隊(duì),做了30年的自然語(yǔ)言處理研究,前面講的東西,在我們蘇州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室都在做(見(jiàn)圖22)。
圖22 蘇州大學(xué)自然語(yǔ)言處理的研究
5.
總結(jié)
第一,自然語(yǔ)言處理發(fā)展正處于歷史的最好時(shí)期,并取得了很大進(jìn)步。最重要的原因是技術(shù)的進(jìn)步達(dá)到了產(chǎn)業(yè)需求的下限,產(chǎn)業(yè)的巨大需求反過(guò)來(lái)推動(dòng)了技術(shù)的進(jìn)步。
第二,AI時(shí)代自然語(yǔ)言處理發(fā)展趨勢(shì),一個(gè)是知識(shí);一個(gè)是學(xué)習(xí)。
第三,學(xué)科自身發(fā)展和邊界,要凝練自然語(yǔ)言處理本身的科學(xué)問(wèn)題,研究框架和規(guī)范。
第四,加快產(chǎn)學(xué)研的進(jìn)一步融合。
-
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238957 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
288瀏覽量
13360
原文標(biāo)題:CCAI2018演講實(shí)錄丨張民:自然語(yǔ)言處理方法與應(yīng)用
文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論