人工智能理解自然語言的原理是什么?
人工智能理解自然語言的原理是什么?要有針對性地回答該問題,需先將它的議題邊界進(jìn)行明確定義。如果將該問題理解為如何利用計(jì)算機(jī)工具處理和分析自然語言,以實(shí)現(xiàn)人與計(jì)算機(jī)通過自然語言進(jìn)行的有效溝通,那么可以得到一個相對狹義的回答;如果要梳理“人工智能”、“理解”、“自然語言”等問題中的概念,那么也可以獲得一個相對廣義的探討。
狹義地講,利用計(jì)算機(jī)進(jìn)行語言分析的研究是一門語言學(xué)與計(jì)算機(jī)科學(xué)的交叉學(xué)科,學(xué)術(shù)界稱之為“計(jì)算語言學(xué)”(Computational Linguistics),或者是“自然語言處理”(Natural Language Processing, 縮寫:NLP)。如果將程序理解為“數(shù)據(jù)結(jié)構(gòu)+算法”,那么NLP可以類比的理解為“語言學(xué)范疇+計(jì)算模型”。其中,語言學(xué)范疇是指由語言學(xué)家定義的語言學(xué)概念和標(biāo)準(zhǔn)(如詞、詞性、語法、語義角色、篇章結(jié)構(gòu)等),NLP處理的任務(wù)大多來源于此;具體實(shí)現(xiàn)的計(jì)算模型或算法通常由計(jì)算機(jī)學(xué)家研制。
一般來說,通用的基礎(chǔ)NLP總是與語言學(xué)領(lǐng)域的范疇直接相關(guān)聯(lián)的,研究包括:詞干提取(Stemming)、詞形還原(Lemmatization)、分詞(Word Segmentation)、詞性標(biāo)注(Part-of-speech, POS)、命名實(shí)體識別(Named Entity Recognition, NER)、詞義消歧(Word Sense Disambiguation, WSD)、組塊識別(Chunk Recognition)、句法分析(e.g. Dependency Parsing)、語義角色標(biāo)注(Semantic Role Labelling, SRL)、共指消解(Coreference Resolution)、篇章分析(Discourse Analysis)等。還有一些NLP研究不與語言學(xué)范疇直接關(guān)聯(lián),而是面向文本處理應(yīng)用的,比如:機(jī)器翻譯、文本摘要、信息抽取、情感分類、信息檢索、問答系統(tǒng)等,這些面向應(yīng)用的NLP技術(shù)多多少少會依賴于前面所介紹的幾類NLP基礎(chǔ)研究。例如,文本摘要可能用到的NLP基礎(chǔ)技術(shù)一般就涉及分詞、命名實(shí)體識別等。
在計(jì)算模型研究方面,有理性主義和經(jīng)驗(yàn)主義兩條研究路線可以走,即所謂的“規(guī)則方法”和“統(tǒng)計(jì)方法”。由于自然語言在本質(zhì)上屬于人類社會因交流需要而產(chǎn)生的符號系統(tǒng),其規(guī)則和推理特征鮮明,因此早期NLP的研究首要采用規(guī)則方法。然而,一方面,人類語言畢竟不是形式語言,規(guī)則模式往往隱式存在語言當(dāng)中(比如漢語的語法規(guī)則是相當(dāng)?shù)暮痪_),規(guī)則的制定并不容易;另一方面,自然語言的復(fù)雜性使得規(guī)則很難既無沖突又能涵蓋全部的語言現(xiàn)象,于是這種基于理性主義的規(guī)則方法使得NLP研究長時間停留在一種小范圍可用的Toy階段。直到大規(guī)模語料庫的建設(shè)和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法流行開來后,NLP研究才逐漸走向了面向?qū)嵱没牡缆贰=y(tǒng)計(jì)方法省去了很多人工編制規(guī)則的負(fù)擔(dān),在模型生成方面自動評估特征的權(quán)重,具有較好的魯棒性。然而,當(dāng)我們想要得到一個好的自然語言處理結(jié)果時,在設(shè)計(jì)反映語言現(xiàn)象洞見(Insight)的模型結(jié)構(gòu)以及合適的特征設(shè)計(jì)方面,仍離不開NLP研究人員對語言的深入理解及其智力的支持。
可以看到,NLP的處理方式是將理解自然語言的過程看作是一種對語言現(xiàn)象的數(shù)學(xué)建模。一方面要求研究者有扎實(shí)的語言學(xué)知識背景,另一方面也要具備深厚的數(shù)理功底和機(jī)器學(xué)習(xí)經(jīng)驗(yàn)。這樣在面對一個具體的自然語言處理問題時,才能將其分解為具備可操作性的建模任務(wù)。從這個角度講,NLP并非是真正理解自然語言,只是將語言處理當(dāng)作一種計(jì)算任務(wù)。
如果不把理解自然語言簡單地看作是數(shù)學(xué)建模,那么從廣義層面,人工智能理解自然語言指的是什么呢?首先,需要明確一下所謂的“自然語言”、“人工智能”、“理解”等概念。
“自然語言”的含義相對明確,一般是指人類社會中逐漸發(fā)明和演變的用于溝通交流的語言,比如語音、手勢語、書面語言等。這里為論述方便,將討論范圍約束在文本形式為載體的語言中,主要是書面自然語言,也包括口語表達(dá)的語言。
“人工智能”不是個能夠清晰定義的概念。泛泛地說,人工智能是指機(jī)器智能體(Agent)模擬人類所表現(xiàn)出的智能活動,包括人類感知外界的能力、決策推理的能力、甚至擁有情感、意志的能力等。從外延構(gòu)成上,人工智能包括兩個方面:研究內(nèi)容和方法論。研究內(nèi)容即大家熟知的在科研機(jī)構(gòu)開展的各類研究課題,包括:知識表達(dá)與推理、語音識別、計(jì)算機(jī)視覺、自然語言處理、自動規(guī)劃與調(diào)度、機(jī)器人學(xué)等。而方法論是指實(shí)現(xiàn)人工智能模擬人類智能的視角和指導(dǎo)原則。實(shí)現(xiàn)人工智能主要有三種主流的觀點(diǎn)和視角:符號主義、聯(lián)結(jié)主義、行為主義。符號主義(Symbolism)認(rèn)為,應(yīng)該從數(shù)理邏輯演繹的角度來模擬人的思維智能活動。知識工程、專家系統(tǒng)等一系列理論與技術(shù)的發(fā)展無不受到符號主義思潮的影響。聯(lián)結(jié)主義(Connectionism)源于對人腦模型的仿生學(xué)研究。McCulloch和Pitts提出的神經(jīng)元腦模型M-P模型、Hebb提出的神經(jīng)元學(xué)習(xí)規(guī)則、Rosenblatt的感知器概念等研究盡可能地從仿生學(xué)角度模擬了人腦結(jié)構(gòu)。而后來的BP反向傳播算法、將受限Boltzmann機(jī)引入深度學(xué)習(xí)等研究則更多的是從可計(jì)算性的角度大大擴(kuò)展了神經(jīng)網(wǎng)絡(luò)模型的大規(guī)模應(yīng)用性。行為主義(Behaviorism)將重點(diǎn)關(guān)注在可觀測的人類行為上,認(rèn)為人類通過行為與外界環(huán)境的交互而得到自適應(yīng)性,從而獲得智能。行為主義研究中常見的實(shí)現(xiàn)技術(shù)有進(jìn)化計(jì)算(遺傳算法)、強(qiáng)化學(xué)習(xí)等。現(xiàn)有主流的以規(guī)則和統(tǒng)計(jì)相結(jié)合的自然語言處理技術(shù),其規(guī)則的一面與符號主義演繹推理的視角是相一致的;其統(tǒng)計(jì)的一面?zhèn)戎赜趶臄?shù)據(jù)中挖掘出語言學(xué)的一般性規(guī)律,屬于歸納性思維。近些年來,詞向量(如word2vec)等語言知識的分布式表示開始流行,這種分布式表示能夠很自然的接入到神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行數(shù)據(jù)歸納學(xué)習(xí),在一定程度上促進(jìn)了聯(lián)結(jié)主義自然語言處理的發(fā)展。
說到“理解”,大多數(shù)人的共識是機(jī)器無法真正理解自然語言,但是人類可以理解。一個典型的證據(jù)來源于美國哲學(xué)家John Searle通過“中文房間”思想實(shí)驗(yàn)對圖靈測試的反駁。圖靈測試用于判斷機(jī)器是否具備人類智能。該測試的實(shí)驗(yàn)思路是:讓一個不知情的質(zhì)問者詢問一臺計(jì)算機(jī)和一個志愿者,通過多輪檢驗(yàn)后如果質(zhì)問者仍然無法判別計(jì)算機(jī)和志愿者分別是誰,那么說明計(jì)算機(jī)通過了圖靈測試,意味著計(jì)算機(jī)具備了人類智能,擁有理解能力。Searle利用“中文房間”思想實(shí)驗(yàn)對圖靈測試進(jìn)行了批駁。該思想實(shí)驗(yàn)的大意是,一個說英語的人在房間內(nèi)通過查找中文對照表與屋外人用中文交流。在屋外人看來,房間內(nèi)的人會說流利的中文,而實(shí)際上他卻完全不懂中文。在本文作者看來,暫且不必太糾結(jié)機(jī)器能否真的理解自然語言。事實(shí)上,人在語言交流時很多情況下也未必做得很好。例如,在談及“元宵”時,全國各個地方對“元宵”的具體理解是有差異的;在談及“豪宅”時,香港和內(nèi)地人在房屋尺寸上的理解也是不同的;一些溫度感受的概念如“冷/熱”,生活在不同緯度地區(qū)的人們對標(biāo)的溫度也是有別的。在認(rèn)知語言學(xué)看來,概念的語義并非是從字典中羅列的靜態(tài)含義。事實(shí)上,每個人對概念的理解與他個人特異化的體驗(yàn)環(huán)境有關(guān)。即便是同一概念,不同人也有不同的解讀。例如,在多數(shù)情況下,擁有相似生活體驗(yàn)的人們,談?wù)撃骋还餐掝}時才更有可能產(chǎn)生所謂的“感同身受”。語義理解的困難尚且如此,人們在日常會話交際時還會產(chǎn)生語用理解的困難。請看這樣一對會話,甲:“晚上去KTV嗎”?乙:“我爸從天津回來了”。如果僅僅從字面語義來看待甲乙兩人的會話是無法理解乙的回答的。實(shí)際上,乙通過告訴對方“我爸從天津回來了”來暗示自己沒有辦法接受甲的邀請,這是一種涉及語用的間接拒絕,反映了言語交際的真正意圖。充分理解會話雙方的語用意圖需要借助會話的語境推理,影響推理的因素不僅包括會話上下文、會話時間地點(diǎn)等物理環(huán)境,也包括會話雙方的共識知識、性格特點(diǎn)、文化背景等。人與人在語言交流中的相互理解仍是不易的,更何況是機(jī)器的真正理解。那么我們在利用機(jī)器處理自然語言時,可以不必過多在意它是否真的能理解這個問題本身,而是將精力關(guān)注在如何讓智能體盡可能多地模擬人的智能,讓機(jī)器具備人一樣的功能。
自然語言理解方面,雖然以聯(lián)結(jié)主義為代表的神經(jīng)網(wǎng)絡(luò)模型在物理表征層面盡可能地嘗試模仿人腦結(jié)構(gòu),然而在一些處理機(jī)制方面仍與人腦存在巨大的差異。這里討論三個問題。
一. 人腦如何從底層的聯(lián)結(jié)計(jì)算向上自動形成出可推理的符號計(jì)算?人腦的基礎(chǔ)構(gòu)成是數(shù)億萬神經(jīng)元及其形成的聯(lián)結(jié)結(jié)構(gòu),信息輸入是連續(xù)數(shù)值形式的,然而通過人腦的層層高級加工最終卻可以將信息概念化,進(jìn)而形成高效的符號計(jì)算與推理。新的知識可以通過概念組合或者推理獲得,而無需再通過大規(guī)模的數(shù)據(jù)驅(qū)動得到。例如,如果人腦從大量文本素材中學(xué)習(xí)得到句子的“主(noun)+謂(verb)+賓(noun)”模式,那么當(dāng)看到一句話“a1a2b1b2c1”,已知“b1b2”是動詞,“c1”是名詞,很有可能推理出“a1a2”是名詞也是句子的主語。進(jìn)一步的,如果已知“b1b2”是個體才能實(shí)施的動作,那么可以推斷出“a1a2”很有可能是命名實(shí)體,即使我們不預(yù)先知道“a1a2”的內(nèi)部用詞構(gòu)成。在圖像處理領(lǐng)域,目前的深度學(xué)習(xí)技術(shù)可以將圖像信息逐層抽象,自發(fā)地學(xué)習(xí)出高層特征,形成高級語義模式。這對自動化的模擬自然語言理解具有借鑒意義,然而實(shí)際上處理自然語言則困難得多。目前,如何利用底層的文本輸入,讓機(jī)器像人腦一樣通過逐層信息加工自動生成高級的語言學(xué)離散符號及其模式規(guī)則,其形成機(jī)制并不清晰。
二. 如何讓機(jī)器像人腦一樣實(shí)現(xiàn)反饋式的自然語言理解?NLP研究的主流做法是將單個自然語言任務(wù)封裝成一個模塊,模塊之間按照自然語言任務(wù)的高低級之分0次序串聯(lián)起來。例如,對于句子的句法分析,通常的做法是先分詞、詞性標(biāo)注、命名實(shí)體識別、組塊識別等,這些信息可以作為高層句法分析的特征。然而,低級語言分析的錯誤也會傳導(dǎo)到高級語言分析任務(wù)上來。如果分詞有錯誤,也會影響到最終句法分析的性能。與之相反的是,人腦在進(jìn)行自然語言理解時,并非總是按照各個語言分析模塊以串行相接的方式進(jìn)行。例如前面給出的句子“a1a2b1b2c1”,當(dāng)我們暫時無法辨別“a1a2”是否是命名實(shí)體時,暫且將這個任務(wù)放一放,轉(zhuǎn)而考慮句子后面的信息。當(dāng)我們逐漸分析出來整個句子可能是“主(noun)+謂(verb)+賓(noun)”的句法模式時,這種更高層的信息作為正面反饋有利于反過來推測“a1a2”是命名實(shí)體。這個例子中,命名實(shí)體的識別反而采用了更高層的句法信息作為線索。現(xiàn)有的人工智能的自然語言處理流程是固定的,而人腦對自然語言處理的流程則可以根據(jù)實(shí)際情況做出改變。
三. 語義流變的自動學(xué)習(xí)。大量的詞匯在社會的不同歷史時期會有不同的語義,形成語義流變。例如,“小姐”一詞的內(nèi)涵從古至今就一直發(fā)生著變化。“小姐”在中國封建社會通常是指大戶人家有著良好教養(yǎng)的未婚年輕女子;新中國建立后,隨著傳統(tǒng)封建社會中“小姐”對應(yīng)的人物角色在社會中逐漸消失,“小姐”一詞的使用也越來越少;然而,當(dāng)人們對從事色情行業(yè)的女子冠以“小姐”的稱呼時,“小姐”一詞又產(chǎn)生了相應(yīng)的新詞義。因此,出于詞匯語義流變的客觀存在性,不可能一次性設(shè)計(jì)出一個完整而全面的機(jī)讀詞義辭典來支持自然語言的語義理解。當(dāng)社會上出現(xiàn)詞匯的新解時,一般就需要手動維護(hù)和更新語義辭典。如果對機(jī)器概念和知識的更新只停留在人工輸入階段,那么機(jī)器就永遠(yuǎn)無法實(shí)現(xiàn)像人一樣的自動學(xué)習(xí)與進(jìn)化。
一方面,人們對人腦的語言與思維的研究尚且并不充分。另一方面,現(xiàn)有的人工智能在理解自然語言的處理機(jī)制方面與人腦存在巨大的差異,那么是否意味著人工智能在自然語言理解的發(fā)展存在著難以克服的瓶頸呢?答案未必這樣悲觀。如果我們審視人類自身,會發(fā)現(xiàn)語言與思維的產(chǎn)生不僅與人腦基礎(chǔ)的神經(jīng)連接結(jié)構(gòu)有關(guān),也受到外界語言環(huán)境激勵的影響。如果將聯(lián)結(jié)主義和行為主義的思想結(jié)合起來,以仿生模擬的方式來“調(diào)教”機(jī)器智能體,就像教育兒童習(xí)得語言那樣以交互激勵的方式學(xué)習(xí)語言,那么經(jīng)過很多代的更新和迭代后,機(jī)器智能體可能會進(jìn)化出自己的語言習(xí)得裝置,產(chǎn)生特異化的語言模式,而這些語言模式在表征上以分布式的形式存儲于神經(jīng)權(quán)值網(wǎng)絡(luò)之中,使得人類理解起來異常困難。就像AlphaGo戰(zhàn)勝了世界圍棋高手,但是它的出棋策略已經(jīng)很難被制造者所理解。采用仿生學(xué)模擬的方式讓機(jī)器進(jìn)化,意味著創(chuàng)造者對機(jī)器放棄了一定的控制權(quán)。正如凱文·凱利在《失控》中所說,一旦讓機(jī)器進(jìn)化出了智能,那么其代價是人類終將失去對機(jī)器的控制。人類可能最終不僅不理解人腦中語言與思維的產(chǎn)生機(jī)制,也難以理解機(jī)器智能體中的語言和思維是如何形成的。
以上是云知聲NLP團(tuán)隊(duì)的一點(diǎn)心得和思考,限于篇幅,在這里先分享這么多。歡迎大家與我們多多交流。
答主相關(guān)
作為一家專注物聯(lián)網(wǎng)人工智能服務(wù)、世界頂尖智能語音識別技術(shù)的高新技術(shù)企業(yè),云知聲的NLP團(tuán)隊(duì)一直在為提升人與機(jī)器的會話交互體驗(yàn)而努力,從提升語義理解能力到突破語用理解、讓機(jī)器生成更人性化的應(yīng)答反饋、以及逐漸讓機(jī)器成為可自動回答的“知識專家”……持續(xù)不懈的升級過程既很有挑戰(zhàn)性、也非常有趣。我們的努力目標(biāo)是讓人與機(jī)器實(shí)現(xiàn)自然語言交互、可順利進(jìn)行多輪對話、擁有強(qiáng)大的語用計(jì)算能力,讓機(jī)器有知識、能決策、自學(xué)習(xí),并且有性格、有情感。
我們已經(jīng)在2013年開放了業(yè)內(nèi)第一個同時支持語義解析、問答和多輪對話的語義云,還在2016年推出業(yè)內(nèi)第一個語用計(jì)算引擎,支持融合語境信息的理解、生成和交互框架。深度學(xué)習(xí)技術(shù)是我們提升機(jī)器理解能力的主要“法寶”,目前已經(jīng)能讓機(jī)器理解60+垂直領(lǐng)域(例如醫(yī)療、家居等),平均語義解析準(zhǔn)確率達(dá)到93%。NLP可以深耕的點(diǎn)很多,希望與對NLP感興趣的童鞋進(jìn)一步探討。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28627瀏覽量
207954 -
人工智能
+關(guān)注
關(guān)注
1794文章
47622瀏覽量
239584 -
自然語言
+關(guān)注
關(guān)注
1文章
290瀏覽量
13382
發(fā)布評論請先 登錄
相關(guān)推薦
評論