自然語言處理(NLP)的定義
自然語言處理(NLP)是人工智能技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,并且在商業中的應用正在迅速增長。
雖然自然語言處理(NLP)這一術語最初指的是人工智能系統的閱讀能力,但它后來成為所有計算語言學的一種通俗說法。其子類別包括自然語言生成(NLG)(計算機自行創建通信的能力)和自然語言理解(NLU)(理解俚語、錯誤發音、拼寫錯誤以及其他語言變體的能力)。
自然語言處理(NLP)的工作原理
自然語言處理通過機器學習(ML)進行。機器學習系統像其他任何形式的數據一樣存儲單詞及其組合方式。將短語、句子,有時甚至整本書的內容都輸入機器學習引擎,并根據語法規則和人們的現實語言習慣(或兩者兼而有之)進行處理。然后,計算機使用這些數據來查找模式并推斷出下一步的工作。以翻譯軟件為例:在法語中,“我要去公園”是“Je vais au parc”,因此機器學習預測“我要去商店”也將以“Je vais au”開頭。
自然語言處理應用
機器翻譯是更好的自然語言處理(NLP)應用程序之一,但它并不是最常用的一種。人們每次在Google或Bing搜索引擎中查找內容時,都將數據輸入到系統中。當單擊搜索結果時,搜索引索會將其視為對找到的結果正確的確認,并在以后使用這個信息更好地進行搜索。
聊天機器人的工作方式與其相同:它們與Slack、Microsoft Messenger和其他聊天程序集成在一起,可以在其中讀取人們所說的語言,然后在說出觸發詞語時將其打開。當Siri和Alexa等語音助手聽到“Hey,Alexa”之類的短語時,它們就會進行響應。這就是批評者指責這些程序一直在監聽的原因:如果不是,它們永遠不會知道人們何時需要它們。除非人們自己打開應用程序,否則自然語言處理程序將在后臺運行,等待短語的出現。
自然語言處理(NLP)對人們的利大于弊。人們可以想象一下沒有谷歌搜索或者拼寫檢查程序的生活。它使用自然語言處理(NLP)將輸入的單詞與字典中的單詞進行比較。通過比較這兩個數據集,拼寫檢查程序可以找出問題并提供建議。
自然語言處理(NLP)示例
搜索引擎和拼寫檢查的應用如今非常普遍,人們經常將它們視為一種理所當然的技術,尤其是在自然語言處理(NLP)可以顯著提高生產力的工作中。例如如果想知道還剩下多少假期?不必詢問人力資源部門。可以采用聊天機器人Talla節省時間,它會搜索企業政策以尋找答案。打電話聯系客戶需要翻看手機所存的電話號碼?可以采用語音提示,通過聲音搜索啟動SecondMind,將會給出所需的號碼。這種集成的搜索工具可以加快員工與客戶的溝通。
自然語言處理還可以幫助招聘者對簡歷進行分類,吸引各種應聘者并雇用更多合格的員工。對垃圾郵件進行檢測可以使用自然語言處理(NLP),以阻止垃圾電子郵件進入人們的收件箱;此外,可以采用Outlook和Gmail等程序將某些人的郵件分類到創建的文件夾中。
諸如情緒分析之類的工具可幫助企業快速識別推文內容的好壞,從而可以了解客戶的顧慮。情感分析不僅可以處理社交媒體上的文字,還可以分解詞語出現的語境。對于分析機構Periscopic公司的數據可視化工具SkyeMorét來說,只有30%的英語單詞是正面的,其余的是中性或負面的。因此,自然語言處理(NLP)可以幫助企業更全面地理解一個帖子:在這些中性詞匯背后,消費者表達的情感是什么?
傳統上,企業使用自然語言處理將反饋分為積極和消極兩類。但是Fleishman Hillard公司社會和創新業務的高級副總裁Ryan Smith表示,當今的自然語言處理工具可以識別更精確的情緒,例如悲傷、憤怒和恐懼。
自然語言處理(NLP)軟件
無論人們是要構建聊天機器人、語音助手、預測文本應用程序,還是以自然語言處理為核心的其他應用程序,企業都將需要采用工具。根據調查,最受歡迎的自然語言處理軟件包括:
?自然語言工具包(NLTK)。自然語言工具包(NLTK)是一個開放源代碼框架,用于構建Python程序以使用人類語言數據。它是在賓夕法尼亞大學計算機和信息科學系開發的,為50多個語料庫和詞匯資源庫、一個文本處理庫、自然語言處理庫和論壇提供接口。自然語言工具包(NLTK)是在Apache2.0許可下提供的。
?SpaCy。SpaCy是一個開放源代碼庫,用于高級自然語言處理,專門為生產目的而非研究目的而設計。SpaCy的設計充分考慮了高級數據科學,并允許深度數據挖掘。它是由麻省理工學院授權的。
?Gensim。Gensim是一個用于自然語言處理的開源Python庫。獨立于平臺的庫支持可擴展的統計語義、針對語義結構的純文本文檔分析以及檢索語義相似文檔的能力。可以在無需人工監督的情況下處理大量文本。
?Amazon Comprehend。這項Amazon服務不需要機器學習的經驗。它旨在幫助組織從電子郵件、客戶評論、社交媒體、支持通知單和其他文本中獲得見解。它使用情感分析、詞性提取和標記化來分析單詞背后的意圖。
?IBM Watson音頻分析器。這個基于云計算的解決方案旨在用于社交監聽、聊天機器人集成和客戶服務監控。它可以分析客戶帖子中的情緒和語氣,并監視客戶服務電話和聊天對話。
?谷歌云翻譯。這個API使用自然語言處理來檢查源文本以確定語言,然后使用神經機器翻譯將文本動態翻譯為另一種語言。這個API允許用戶將功能集成到他們自己的程序中。
自然語言處理(NLP)課程
有很多資源可用于學習創建和維護自然語言處理應用程序,其中許多是免費的資源。其中包括:
?DataCamp中的Python自然語言處理。這門免費課程提供15個視頻和51個練習文件,涵蓋了使用Python處理自然語言的基礎知識。它涵蓋了如何識別和分隔單詞,如何在文本中提取主題,以及如何構建自己的虛假新聞分類器。
?Udemy的自然語言處理(NLP)。這個入門課程提供使用Python和自然語言工具包處理和分析文本的實踐經驗。它包括三個小時的點播視頻,三篇文章和16個可下載資源。該課程費用為19.99美元,并提供結業證書。
?使用Udemy的Python進行自然語言處理(NLP)。這個課程面向具有語言基礎編程經驗,理解面向對象編程的概念,具有基礎到中級數學知識以及矩陣運算知識的個人。它完全基于項目,并且涉及構建文本分類器以實時預測推文的情緒,以及構建文章摘要器,該文章摘要器可以獲取文章并提取摘要。該課程包括10.5小時的點播視頻和8篇文章。該課程費用為19.99美元,并提供結業證書。
?edX的自然語言處理(NLP)。由微軟公司通過edX提供的為期六周的課程概述了自然語言處理和經典機器學習方法的使用。它涵蓋了統計機器翻譯和深度語義相似性模型(DSSM)及其應用。它還涵蓋了在自然語言處理和視覺語言多模式智能中應用的深度強化學習技術。這是一門高級課程,完成該課程學習的人員只需支付99美元即可獲得認證證書。
?Coursera公司提供的自然語言處理。本課程是Coursera公司高級機器學習專業化的一部分,涵蓋自然語言處理任務,包括情感分析、摘要、對話狀態跟蹤等。Coursera公司表示,這是一門高級課程,需要學習五個星期,每個星期需要學習四到五個小時。
自然語言處理為社會公益提供支持
除了幫助企業處理數據外,情緒分析還可以幫助人們了解社會動態。例如,Periscopic已將自然語言處理(NLP)與視覺識別結合使用,創建了特朗普表情計算器(Trump Emoticoaster),這是一種處理語言和面部表情的數據引擎,目的是了解美國特朗普總統的情緒狀態。
類似的技術也可以防止校園槍擊事件:在哥倫比亞大學,研究人員已經處理了9000名暴力傾向的年輕人發布的200萬條推文,并在尋找問題的答案:隨著青少年越來越傾向采用暴力,那么其語言是如何改變的?
Coursera公司項目總監Desmond Patton博士說,“有問題的內容會隨著時間的推移而發展。”隨著一些年輕人越來越接近危險的邊緣,他們會通過語言表達。然后,自然語言處理會標記出有問題的情緒,以便社會工作者可以進行干預。
與Periscopic一樣,Columbia公司將情感分析與圖像識別結合使用,以提高準確性。Patton說,計算機視覺將推文上的圖片進行分解,然后機器學習將它們與語言一起處理,以告訴“圖片的真實情感”。這個圖像是關于悲傷的嗎?這是有關威脅的圖片嗎?這些圖像中還發生了什么,可以幫助人們更好地理解?”除校園槍擊事件之外,哥倫比亞計劃還希望采用這種技術防止團伙暴力。
自然語言處理(NLP)以提高個人水平
自然語言處理(NLP)還可以幫助人們監控自己的情緒狀態。Woebot是一種電子治療師,可通過Facebook Messenger聊天機器人或獨立應用程序與用戶聯系。不過,目前還沒有高級的情感分析技術,Woebot實際上只能跟蹤那些抑郁和焦慮,可能表明用戶面臨緊急情況的詞匯。
責任編輯自然語言處理(NLP)的定義
自然語言處理(NLP)是人工智能技術的一個分支,它使計算機能夠像人們一樣理解、處理和生成語言,并且在商業中的應用正在迅速增長。
雖然自然語言處理(NLP)這一術語最初指的是人工智能系統的閱讀能力,但它后來成為所有計算語言學的一種通俗說法。其子類別包括自然語言生成(NLG)(計算機自行創建通信的能力)和自然語言理解(NLU)(理解俚語、錯誤發音、拼寫錯誤以及其他語言變體的能力)。
自然語言處理(NLP)的工作原理
自然語言處理通過機器學習(ML)進行。機器學習系統像其他任何形式的數據一樣存儲單詞及其組合方式。將短語、句子,有時甚至整本書的內容都輸入機器學習引擎,并根據語法規則和人們的現實語言習慣(或兩者兼而有之)進行處理。然后,計算機使用這些數據來查找模式并推斷出下一步的工作。以翻譯軟件為例:在法語中,“我要去公園”是“Je vais au parc”,因此機器學習預測“我要去商店”也將以“Je vais au”開頭。
自然語言處理應用
機器翻譯是更好的自然語言處理(NLP)應用程序之一,但它并不是最常用的一種。人們每次在Google或Bing搜索引擎中查找內容時,都將數據輸入到系統中。當單擊搜索結果時,搜索引索會將其視為對找到的結果正確的確認,并在以后使用這個信息更好地進行搜索。
聊天機器人的工作方式與其相同:它們與Slack、Microsoft Messenger和其他聊天程序集成在一起,可以在其中讀取人們所說的語言,然后在說出觸發詞語時將其打開。當Siri和Alexa等語音助手聽到“Hey,Alexa”之類的短語時,它們就會進行響應。這就是批評者指責這些程序一直在監聽的原因:如果不是,它們永遠不會知道人們何時需要它們。除非人們自己打開應用程序,否則自然語言處理程序將在后臺運行,等待短語的出現。
自然語言處理(NLP)對人們的利大于弊。人們可以想象一下沒有谷歌搜索或者拼寫檢查程序的生活。它使用自然語言處理(NLP)將輸入的單詞與字典中的單詞進行比較。通過比較這兩個數據集,拼寫檢查程序可以找出問題并提供建議。
自然語言處理(NLP)示例
搜索引擎和拼寫檢查的應用如今非常普遍,人們經常將它們視為一種理所當然的技術,尤其是在自然語言處理(NLP)可以顯著提高生產力的工作中。例如如果想知道還剩下多少假期?不必詢問人力資源部門。可以采用聊天機器人Talla節省時間,它會搜索企業政策以尋找答案。打電話聯系客戶需要翻看手機所存的電話號碼?可以采用語音提示,通過聲音搜索啟動SecondMind,將會給出所需的號碼。這種集成的搜索工具可以加快員工與客戶的溝通。
自然語言處理還可以幫助招聘者對簡歷進行分類,吸引各種應聘者并雇用更多合格的員工。對垃圾郵件進行檢測可以使用自然語言處理(NLP),以阻止垃圾電子郵件進入人們的收件箱;此外,可以采用Outlook和Gmail等程序將某些人的郵件分類到創建的文件夾中。
諸如情緒分析之類的工具可幫助企業快速識別推文內容的好壞,從而可以了解客戶的顧慮。情感分析不僅可以處理社交媒體上的文字,還可以分解詞語出現的語境。對于分析機構Periscopic公司的數據可視化工具SkyeMorét來說,只有30%的英語單詞是正面的,其余的是中性或負面的。因此,自然語言處理(NLP)可以幫助企業更全面地理解一個帖子:在這些中性詞匯背后,消費者表達的情感是什么?
傳統上,企業使用自然語言處理將反饋分為積極和消極兩類。但是Fleishman Hillard公司社會和創新業務的高級副總裁Ryan Smith表示,當今的自然語言處理工具可以識別更精確的情緒,例如悲傷、憤怒和恐懼。
自然語言處理(NLP)軟件
無論人們是要構建聊天機器人、語音助手、預測文本應用程序,還是以自然語言處理為核心的其他應用程序,企業都將需要采用工具。根據調查,最受歡迎的自然語言處理軟件包括:
?自然語言工具包(NLTK)。自然語言工具包(NLTK)是一個開放源代碼框架,用于構建Python程序以使用人類語言數據。它是在賓夕法尼亞大學計算機和信息科學系開發的,為50多個語料庫和詞匯資源庫、一個文本處理庫、自然語言處理庫和論壇提供接口。自然語言工具包(NLTK)是在Apache2.0許可下提供的。
?SpaCy。SpaCy是一個開放源代碼庫,用于高級自然語言處理,專門為生產目的而非研究目的而設計。SpaCy的設計充分考慮了高級數據科學,并允許深度數據挖掘。它是由麻省理工學院授權的。
?Gensim。Gensim是一個用于自然語言處理的開源Python庫。獨立于平臺的庫支持可擴展的統計語義、針對語義結構的純文本文檔分析以及檢索語義相似文檔的能力。可以在無需人工監督的情況下處理大量文本。
?Amazon Comprehend。這項Amazon服務不需要機器學習的經驗。它旨在幫助組織從電子郵件、客戶評論、社交媒體、支持通知單和其他文本中獲得見解。它使用情感分析、詞性提取和標記化來分析單詞背后的意圖。
?IBM Watson音頻分析器。這個基于云計算的解決方案旨在用于社交監聽、聊天機器人集成和客戶服務監控。它可以分析客戶帖子中的情緒和語氣,并監視客戶服務電話和聊天對話。
?谷歌云翻譯。這個API使用自然語言處理來檢查源文本以確定語言,然后使用神經機器翻譯將文本動態翻譯為另一種語言。這個API允許用戶將功能集成到他們自己的程序中。
自然語言處理(NLP)課程
有很多資源可用于學習創建和維護自然語言處理應用程序,其中許多是免費的資源。其中包括:
?DataCamp中的Python自然語言處理。這門免費課程提供15個視頻和51個練習文件,涵蓋了使用Python處理自然語言的基礎知識。它涵蓋了如何識別和分隔單詞,如何在文本中提取主題,以及如何構建自己的虛假新聞分類器。
?Udemy的自然語言處理(NLP)。這個入門課程提供使用Python和自然語言工具包處理和分析文本的實踐經驗。它包括三個小時的點播視頻,三篇文章和16個可下載資源。該課程費用為19.99美元,并提供結業證書。
?使用Udemy的Python進行自然語言處理(NLP)。這個課程面向具有語言基礎編程經驗,理解面向對象編程的概念,具有基礎到中級數學知識以及矩陣運算知識的個人。它完全基于項目,并且涉及構建文本分類器以實時預測推文的情緒,以及構建文章摘要器,該文章摘要器可以獲取文章并提取摘要。該課程包括10.5小時的點播視頻和8篇文章。該課程費用為19.99美元,并提供結業證書。
?edX的自然語言處理(NLP)。由微軟公司通過edX提供的為期六周的課程概述了自然語言處理和經典機器學習方法的使用。它涵蓋了統計機器翻譯和深度語義相似性模型(DSSM)及其應用。它還涵蓋了在自然語言處理和視覺語言多模式智能中應用的深度強化學習技術。這是一門高級課程,完成該課程學習的人員只需支付99美元即可獲得認證證書。
?Coursera公司提供的自然語言處理。本課程是Coursera公司高級機器學習專業化的一部分,涵蓋自然語言處理任務,包括情感分析、摘要、對話狀態跟蹤等。Coursera公司表示,這是一門高級課程,需要學習五個星期,每個星期需要學習四到五個小時。
自然語言處理為社會公益提供支持
除了幫助企業處理數據外,情緒分析還可以幫助人們了解社會動態。例如,Periscopic已將自然語言處理(NLP)與視覺識別結合使用,創建了特朗普表情計算器(Trump Emoticoaster),這是一種處理語言和面部表情的數據引擎,目的是了解美國特朗普總統的情緒狀態。
類似的技術也可以防止校園槍擊事件:在哥倫比亞大學,研究人員已經處理了9000名暴力傾向的年輕人發布的200萬條推文,并在尋找問題的答案:隨著青少年越來越傾向采用暴力,那么其語言是如何改變的?
Coursera公司項目總監Desmond Patton博士說,“有問題的內容會隨著時間的推移而發展。”隨著一些年輕人越來越接近危險的邊緣,他們會通過語言表達。然后,自然語言處理會標記出有問題的情緒,以便社會工作者可以進行干預。
與Periscopic一樣,Columbia公司將情感分析與圖像識別結合使用,以提高準確性。Patton說,計算機視覺將推文上的圖片進行分解,然后機器學習將它們與語言一起處理,以告訴“圖片的真實情感”。這個圖像是關于悲傷的嗎?這是有關威脅的圖片嗎?這些圖像中還發生了什么,可以幫助人們更好地理解?”除校園槍擊事件之外,哥倫比亞計劃還希望采用這種技術防止團伙暴力。
自然語言處理(NLP)以提高個人水平
自然語言處理(NLP)還可以幫助人們監控自己的情緒狀態。Woebot是一種電子治療師,可通過Facebook Messenger聊天機器人或獨立應用程序與用戶聯系。不過,目前還沒有高級的情感分析技術,Woebot實際上只能跟蹤那些抑郁和焦慮,可能表明用戶面臨緊急情況的詞匯。
責任編輯:ct
評論
查看更多