一、什么是自然語言處理
自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬于人工智能的一個分支,是計算機科學與語言學的交叉學科。由于自然語言是人類區別于其他動物的根本標志,沒有語言,人類的思維也就無從談起,所以NLP體現了人工智能的最高任務與境界。也就是說,只有當計算機具備了處理自然語言的能力時,機器才算實現了真正的智能。
從技術角度看,NLP包括序列標注、分類任務、句子關系判斷和生成式任務等。從應用角度看,NLP具有廣泛的應用場景,例如:機器翻譯、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等等。它涉及與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智能研究和與語言計算相關的語言學研究等。
NLP的興起與機器翻譯這一具體任務有著密切聯系。“人工智能”被作為一個研究問題正式提出來的時候,創始人把計算機國際象棋和機器翻譯作為兩個標志性的任務,認為只要國際象棋系統能夠打敗人類世界冠軍,機器翻譯系統達到人類翻譯水平,就可以宣告人工智能的勝利。四十年后的1997年,IBM公司的深藍超級計算機已經能夠打敗國際象棋世界冠軍卡斯帕羅夫。而機器翻譯到現在仍無法與人類翻譯水平相比,由此可見NLP有多么的復雜和困難!
二、自然語言處理的發展趨勢
目前,人們主要通過兩種思路來進行自然語言處理,一種是基于規則的理性主義,另外一種是基于統計的經驗主義。理性主義方法認為,人類語言主要是由語言規則來產生和描述的,因此只要能夠用適當的形式將人類語言規則表示出來,就能夠理解人類語言,并實現語言之間的翻譯等各種NLP任務。而經驗主義方法則認為,從語言數據中獲取語言統計知識,有效建立語言的統計模型。因此只要能夠有足夠多的用于統計的語言數據,就能夠理解人類語言。然而,當面對現實世界充滿模糊與不確定性時,這兩種方法都面臨著各自無法解決的問題。例如,人類語言雖然有一定的規則,但是在真實使用中往往伴隨大量的噪音和不規范性。理性主義方法的一大弱點就是魯棒性差,只要與規則稍有偏離便無法處理。而對于經驗主義方法而言,又不能無限地獲取語言數據進行統計學習,因此也不能夠完美地理解人類語言。二十世紀八十年代以來的趨勢就是,基于語言規則的理性主義方法不斷受到質疑,大規模語言數據處理成為目前和未來一段時期內NLP的主要研究目標。統計學習方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
隨著2013年word2vec技術的發表,以神經網絡為基礎的深度學習技術開始在NLP中廣泛使用,深度學習的分布式語義表示和多層網絡架構具有強大的擬合和學習能力,顯著提升了NLP各種任務的性能,成為現階段NLP的主要技術方案。
深度學習是純數據驅動技術方案,需要從大規模標注數據中學習特定任務相關的復雜模式。一方面,有些學者開始探索面向大規模無標注文本數據的深度學習模型,如ELMo,GPT、BERT等,可以看做從大規模數據中學習知識的極致探索;另一方面,現有深度學習技術尚未考慮人類積累的豐富知識(包括語言知識、世界知識、常識知識、認知知識、行業知識等),如果將深度學習看做經驗主義方法,將符號知識看做理性主義方法,那么如何充分發揮基于規則的理性主義方法和基于統計的經驗主義方法的優勢,兩者互相補充,更好、更快地進行自然語言處理,仍然是我們需要探索的重要課題。
三、自然語言處理在BI的應用
2018年,Gartner 在其發布的魔力象限報告中,明確指出增強型分析功能是 BI 產品發展的最重要、也是最顯著的發展趨勢之一,其原因并不難理解:“當前企業使用的數據的規模和復雜度已經逐漸超過人類可以處理的程度,靜態報表、儀表板等傳統工具已經不能滿足需求,而通過機器學習、人工智能等技術增強分析,可以更好地處理這些數據。而如果利用自然語言處理、人工智能等技術的增強分析就可以自動、快速地對數據進行分析,輔助分析人員得到需要的數據洞察。”
作為連續多年入選“Gartner增強分析代表廠商”和“Gartner中國人工智能創業公司代表廠商(2020)”的Smartbi正是看到了這些趨勢,在2018年便開始自主研發增強分析工具Smartbi NLA,期望通過引入自然語言處理、知識圖譜、推薦算法和機器問答等人工智能技術,使得Smartbi NLA可以理解用戶的數據分析需求,并幫助其快速完成分析任務獲得數據洞見。
Smartbi NLA的交互式對話實際上是一種特定的語義分析任務。在學術界,類似的任務最早可以追溯到1970年代提出的自然語言編程(Natural-language programming),是指將自然語言(研究比較多的是英語)翻譯為特定的編程語言。在1980年代,人們又針對關系性數據庫提出了自然語言數據庫查詢(Natural Language Database Query),也稱為Text2SQL、NL2SQL等。它將用戶的自然語句轉為可以執行的SQL語句,從而免除業務用戶學習SQL語言的煩惱,成功將NLP應用于BI領域。
Smartbi正是利用了NL2SQL技術,將自然語言通過神經網絡轉化為計算機可以識別的數據庫查詢語言。用戶通過語音或者鍵盤輸入后,“AI智能小麥”會將輸入的自然語言轉為語言元模型的形式,通過小麥內置的知識抽取算法,經過深度學習模型將元模型轉化為機器可以理解的數據庫語言。最后通過Smartbi預置的查詢引擎和圖形引擎,快速準確的找到用戶想要的查詢結果,自動生成圖形輸出,也可以在Smartbi中對查詢結果進行組合和進一步分析。
圖:NL2SQL模型原理示意圖
Smartbi NLA是時下前沿的數據分析工具,簡化為搜索引擎,僅僅只有一個輸入框,頁面直接輸入描述業務問題,工具自動把數據查詢出來,免去學習操作的過程,特別適合在展廳大屏、領導辦公室大屏等場合使用,一經推出便廣受客戶歡迎。
1、Smartbi自然語言查詢:臨危受命
2、Smartbi自然語言查詢:游刃有余
3、Smartbi自然語言查詢:堪當大任
4、Smartbi自然語言查詢:如影相隨
審核編輯:符乾江
-
數據挖掘
+關注
關注
1文章
406瀏覽量
24287 -
數據分析
+關注
關注
2文章
1460瀏覽量
34109 -
數據可視化
+關注
關注
0文章
471瀏覽量
10345
發布評論請先 登錄
相關推薦
評論