比爾·蓋茨曾說過,「語言理解是人工智能皇冠上的明珠」。自然語言處理的進步將會推動人工智能整體進展。NLP 的歷史幾乎跟計算機和人工智能的歷史一樣長。自計算機誕生,就開始有了對人工智能的研究,而人工智能領域最早的研究就是機器翻譯以及自然語言理解。
隨著大數據和技術設施的完善,人工智能技術在近年來迎來了井噴式的發展。在產業方面,不少專注于計算機視覺的公司也獲得了長足發展。其中比較具有代表性的是估值已經超過 20 億美元的商湯科技,在經歷了數輪大額融資之后,其隱隱有從獨角獸變成巨頭的趨勢。
不過,人工智能另一個相關領域自然語言處理似乎沒有達到這種高度。在技術方面,這一領域的技術準確率遠遠沒有達到計算機視覺和語音識別的水平,技術產品也因為較高的錯誤率,缺少實際價值。那么 NLP 技術到底有哪些難點呢?
什么是 NLP?
在人工智能出現之前,計算機只能處理結構化的數據,就比如我們平時用的表格里的數據,但是網絡中大部分的數據都是非結構化的,比如我們看到的文章、圖片、視頻等等。在這些數據中,文本數據又往往是最多的,為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,并加以利用。
人類可以通過語言來交流,而為了讓計算機之間互相交流,人們讓所有計算機都遵守一些規則,計算機的這些規則就是計算機之間的語言。自然語言處理(NLP)就是在機器語言和人類語言之間溝通的橋梁,以實現人機交流的目的。
NLP 的兩個部分:NLU 和 NLG
自然語言理解(NLU) 則是 NLP 的一部分,這幾年深度學習技術的發展使 NLU 能在一些場景中落地。自然語言理解就是希望機器像人一樣,具備正常人的語言理解能力,由于自然語言在理解上有很多難點 (下面詳細說明),所以 NLU 是至今還遠不如人類的表現。
NLU 目前應用的領域主要集中在機器翻譯、機器客服、智能音箱等領域,但由于需要大量的數據訓練和 NLU 本身存在的一些語言語義上的難點,其實機器還不是非常智能。
自然語言生成(NLG)是 NLP 的重要組成部分,NLU 負責理解內容,NLG 負責生成內容。他的主要目的是降低人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式。
自然語言生成 – NLG 有 2 種方式:
text – to – text:文本到語言的生成
data – to – text :數據到語言的生成
NLP 的難點
對于機器來說,難點主要分為 5 類問題:
語言的多樣性,我們日常所用的語言是沒有規律的,不同的組合可以表達出很多的含義。
語言的歧義性,如果不聯系上下文,缺少環境的約束,語言有很大的歧義性
語言是一個開放集合,我們可以任意的發明創造一些新的表達方式。
語言需要知識依賴,需要聯系到實踐知識。
語言的上下文
應用場景復雜,很難出現“獨角獸”
總的來說,NLP 技術領域之所以沒有出現如計算機視覺領域那些獨角獸公司,是因為自然語言處理的技術難度太大,和應用場景太復雜。一個公司的成立發展都是由需求驅動的,自然語言應用主要是機器翻譯,雖然機器翻譯的需求長期存在,但機器翻譯的水平一直未取得突破性的進展,即使到今天,機器也很難翻譯有背景的復雜句子。
另外,自然語言處理的應用太依賴于UI了。圖像識別基本不需要 UI,直接在系統內部集成一些技術就行。一些公司做翻譯軟件,如果UI做得不行,用戶體驗不行,人們就不會愿意使用。
技術產業化最重要的是商業模式,也就是怎么讓技術掙錢。圖像識別公司的掙錢模式已經成立了,但翻譯付費就難多了。所以自然語言是從研究到技術到落地到商業化,面臨一系列的挑戰。目前的現狀是,自然語言處理技術更多的是作為公司內部技術,比如內部的商業情報或人機接口功能。
NLP 技術發展,未來可期
從今年的 ACL 大會可以看出 NLP 技術的火爆。會議共收到了 2900 余篇提交的論文,投稿規模相較于 2018 年增長了 75%!自然語言處理領域實在是炙手可熱,學術界和工業界的熱情都創下了歷史新高。
從商業層面來講也涌現出了微軟小冰、小米小愛等比較成熟的機器人產品,相信在未來的不久 NLP 技術一定會給我們帶來更多的驚喜。
大咖現場分享 NLP 技術干貨
王斌博士,是小米人工智能實驗室主任,NLP 首席科學家。中國中文信息學會理事,計算語言學、信息檢索、社會媒體處理、語言與知識計算等專委會委員及《中文信息學報》編委,中國計算機學會中文信息處理專業委員會委員。
加入小米之前,他在中科院計算所、信工所從事自然語言處理和信息檢索相關的科研工作。在AICon 全球人工智能與機器學習大會現場,他將會帶來 NLP 技術方面的相關演講,各位感興趣的小伙伴歡迎來現場聽他分享。
AICon 全球人工智能與機器學習技術大會,將于 11 月 21-22 日在北京國際會議中心舉行。顏水成、賈揚清、崔寶秋等 AI 技術大咖屆時也會來現場,跟大家聊一聊今年在 AI 商業化場景落地的大背景下,又涌現出了哪些新技術。本次大會我們設立了機器學習、計算機視覺、NLP、AI芯片、搜索推薦、產業互聯網、硅谷 AI 技術實踐等 13+ 技術專場,細分到 AI 技術的各個領域,為大家全方位的展示 AI 技術在國內目前發展的現狀。
-
人工智能
+關注
關注
1794文章
47642瀏覽量
239641 -
計算機視覺
+關注
關注
8文章
1700瀏覽量
46074 -
nlp
+關注
關注
1文章
489瀏覽量
22069
原文標題:為何NLP領域難以出現“獨角獸”?丨AICon
文章出處:【微信號:infoqchina,微信公眾號:InfoQ】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論