色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

專欄 | 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統

m3Fp_almosthuma ? 來源:未知 ? 作者:簡單幸福 ? 2017-08-18 17:06 ? 次閱讀

自然語言是人類知識的抽象濃縮表示,而自然語言理解是人工智能研究領域中極具挑戰的一個分支。上次,《自然語言處理在 2017 年有哪些值得期待的發展?》中,我們已經講到,2016 年是深度學習大潮沖擊 NLP 的一年,通過去年一年的努力,深度學習在 NLP 領域已經站穩了腳跟。其中,對話交互系統已經成為一個重要的應用研究領域,2017 年的自然語言對話系統,將開創一個新的人機交互時代。

通過深度學習和其他機器學習技術的模型組合,竹間智能也已初步實現了自然語言對話中的意圖識別、上下文理解和多輪對話。本文將基于竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉并分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。

事實上,從分詞、詞性、語法解析、信息抽取等基礎模塊,到自然語言生成、機器翻譯、對話管理、知識問答等高層的 NLP 領域,幾乎都可以應用以 CNN、RNN 為代表的深度學習模型,且確實能夠取得不錯的效果。深度學習模型有效降低了語言模型輸入特征的維度,降低了輸入層的復雜性。另外,深度學習模型具有其他淺層模型不能比擬的靈活性。深度學習模型更復雜,能夠對數據進行更精準的建模,從而增強實驗效果。

深度學習模型可以將文本中的詞高效地表示為分布式連續向量(word2vec),將詞語、文本由詞空間映射到語義空間,這樣的語義表示可以捕獲重要的句法和語義信息,一定程度上緩解了詞面不匹配、數據稀疏、語義鴻溝等問題。Word2vec 的應用可以使許多自然語言處理任務取得突出的表現。Word2vec 雖然可以通過神經網絡訓練大規模的語料實現,但仍面臨著 out of vocabulary 的現實。Bahdanau 等人利用 LSTM 模型結合定義知識語料,解決傳統 word embedding 模型中的 out of vocabulary 問題。(框架流程見圖 1,具體見 https://arxiv.org/abs/1706.00286)

圖 1:利用 RNN 解決 Word2Vec 中 out of vocabulary 問題實例

中文不同于英文自然分詞,中文分詞是文本處理的一個基礎步驟,也是自然語言處理的基礎模塊。分詞性能的好壞直接影響比如詞性、句法樹等其他模塊的性能。利用深度學習實現的字嵌入+Bi-LSTM+CRF 中文分詞器,不需要構造額外手工特征。使用人民日報的 80 萬語料訓練實現,按照字符正確率評估標準能達到 98% 的準確率。其本質上是一個序列標注模型,模型參考的論文是:http://www.aclweb.org/anthology/N16-1030,整個神經網絡的主要框架如圖 2 所示。有感興趣的朋友可以去看看,具體實現已在 github 開源 https://github.com/koth/kcws。

圖 2:Word Embedding+Bi-LSTM+CRF 主要框架示意圖

語法解析可以獲得句子的語法結構,例如,哪些單詞組合在一起(形成「短語」),哪些單詞是動詞的主題或對象。Syntactic Parsing 明確標出了詞與詞之間的短語結構,隱含了詞與詞之間的關系。而 Dependency Parser 則明確表示出了詞與詞之間的關系。利用神經網絡模型解析句子的語法結構的實現可以參考 http://www.petrovi.de/data/acl15.pdf 以及斯坦福的 http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。除解析文本之外,Richard Socher 等人利用 CNN 模型實現了解析圖片的功能(Parsing Natural Scenes and Natural Language with Recursive Neural Networks)。

文本分類是各種場景在自然語言處理領域中經常使用到的技術,例如判斷文本內容的情感分類(即對文本表達的情感進行分析,如正面、負面的情感,開心、憤怒等情緒等)。深度學習在文本分類中的表現優于其他一些傳統線性模型,例如 https://arxiv.org/abs/1508.04112。Github 上的 https://github.com/harvardnlp/sent-conv-torch 是用于文本分類的 CNN,這個代碼用 GPU 在 Torch 中實現了 Kim(2014)的句子卷積代碼。它復制了現有數據庫中的結果,并允許在任意其它的文本數據庫上訓練模型。

信息抽取,從句子中抽取特定的片段(比如命名實體識別、摘要總結等)。Abstractive Summarization 摘要總結 https://github.com/harvardnlp/NAMAS,該項目包含了來自論文 A Neural Attention Model for Abstractive Summarization(Alexander M. Rush, Sumit Chopra, Jason Weston. https://arxiv.org/pdf/1509.00685.pdf)的摘要抽象總結系統。該項目里發布的代碼可以:提取摘要數據、訓練摘要神經網絡模型、用 ROUGE 構建評估集、調試提取的特征等。

神經指代消解(Neural Coref Models),在論文 Learning Global Features for Coreference Resolution(Sam Wiseman, Alexander M. Rush, and Stuart M. Shieber, NAACL 2015)和 Learning Anaphoricity and Antecedent Ranking Features for Coreference Resolution(Sam Wiseman, Alexander M. Rush, Stuart M. Shieber, and Jason Weston. ACL 2015)中有所描述。Github 中開源的指代消解項目有 https://github.com/swiseman/nn_coref。

自然語言生成,能夠根據一些關鍵信息及其在機器內部的表達形式,經過一個規劃過程,來自動生成一段高質量的自然語言文本。目前關于自然語言生成有一些比較有趣的研究,比如 https://github.com/karpathy/char-rnn 是一個基于 RNN 的文本生成器,可以自動生成莎士比亞的劇本或者 shell 代碼;https://link.zhihu.com/?target=https%3A//github.com/phunterlau/wangfeng-rnn 基于 char-rnn 的汪峰歌詞生成器等。

知識問答,可以用深度學習模型,從語料中學習獲得一些問題的答案,比如 https://github.com/facebook/MemNN,是 memmnn 的一個官方實現,可以從諸如「小明在操場;小王在辦公室;小明撿起了足球;小王走進了廚房」的語境中,獲得問題「小王在去廚房前在哪里?」這樣涉及推理和理解的問題;例如斯坦福的 http://cs.stanford.edu/~danqi/papers/nips2013.pdf 利用深度學習實現的知識問答系統。

神經機器翻譯(NMT)在翻譯中提供了統計方式之外的另一種方式,同時也更加簡便。Github 上基于 Sequence-to-Sequence Learning with Attentional Neural Networks 的開源項目: http://github.com/harvardnlp/seq2seq-attn,以及基于上述項目和 http://www.people.fas.harvard.edu/~yoonkim/data/emnlp_2016.pdf 的安卓系統中的神經機器翻譯。該項目考慮了將知識提煉(knowledge distillation)方式加入機器神經翻譯中,以解決其體量問題,這種方式已在其他領域中被證明能夠成功減小神經模型的尺寸。

在 Github 上還有一些有趣的關于深度學習與自然語言處理的項目。比如:Google Brain 團隊的一組研究人員發布了一個項目 Project Magenta,其主要目標是利用機器學習創作藝術和譜寫曲子 https://github.com/tensorflow/magenta;https://github.com/ryankiros/neural-storyteller 是一個自然語言生成項目,實現了看圖講故事的功能。

以上是對深度學習在 NLP 領域運用的一些總結和說明。最后,再講回竹間全力打造的自然語言對話系統。之前提到 2017 年的對話系統一定是在限定的場景下發揮作用的,而竹間智能基于深度學習打造的人機交互系統,在金融、電商及 IoT 等限定領域中已經實現了比較好的可控人機對話。未來,竹間希望在更多垂直領域形成突破。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴

原文標題:專欄 | 深度學習在NLP中的運用?從分詞、詞性到機器翻譯、對話系統

文章出處:【微信號:almosthuman2014,微信公眾號:機器之心】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NPU深度學習的應用

    設計的硬件加速器,它在深度學習的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優化的處理器,它與傳統的CPU和G
    的頭像 發表于 11-14 15:17 ?795次閱讀

    AI干貨補給站 | 深度學習機器視覺的融合探索

    智能制造的浪潮,阿丘科技作為業界領先的工業AI視覺平臺及解決方案提供商,始終致力于推動AI+機器視覺技術的革新與應用。為此,我們特別開設了「AI干貨補給站」專欄,分享此領域的基礎知
    的頭像 發表于 10-29 08:04 ?264次閱讀
    AI干貨補給站 | <b class='flag-5'>深度</b><b class='flag-5'>學習</b>與<b class='flag-5'>機器</b>視覺的融合探索

    GPU深度學習應用案例

    GPU深度學習的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是
    的頭像 發表于 10-27 11:13 ?462次閱讀

    深度學習的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統
    的頭像 發表于 07-09 15:54 ?1122次閱讀

    nlp邏輯層次模型的特點

    層次是NLP邏輯層次模型的最底層,主要關注單個詞匯的意義和用法。在這個層次上,模型需要識別和理解詞匯的基本屬性,如詞性、詞義、詞形變化等。詞匯層次的特點包括: a. 詞性標注:識別文本
    的頭像 發表于 07-09 10:39 ?442次閱讀

    nlp自然語言處理基本概念及關鍵技術

    、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型 語言模型是NLP的基礎,它用于描述一個句子自然語言中出現的概率。語言模型通常用于文本生成、
    的頭像 發表于 07-09 10:32 ?712次閱讀

    nlp自然語言處理的主要任務及技術方法

    的應用,如搜索引擎、機器翻譯、語音識別、情感分析等。 NLP的主要任務 NLP的主要任務可以分為以下幾個方面: 1.1 詞法分析(Lexical Analysis) 詞法分析是NLP
    的頭像 發表于 07-09 10:26 ?1282次閱讀

    深度學習工業機器視覺檢測的應用

    隨著深度學習技術的快速發展,其工業機器視覺檢測的應用日益廣泛,并展現出巨大的潛力。工業機器
    的頭像 發表于 07-08 10:40 ?1164次閱讀

    深度學習視覺檢測的應用

    深度學習機器學習領域中的一個重要分支,其核心在于通過構建具有多層次的神經網絡模型,使計算機能夠大量數據
    的頭像 發表于 07-08 10:27 ?856次閱讀

    nlp自然語言處理的應用有哪些

    的應用。以下是一些NLP的主要應用領域,以及它們各個領域的具體應用。 機器翻譯 機器翻譯NLP的一個重要應用領域。它利用計算機自動將一種
    的頭像 發表于 07-05 09:55 ?2760次閱讀

    深度學習nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習
    的頭像 發表于 07-05 09:47 ?1024次閱讀

    自然語言處理技術計算機系統的應用

    已經許多領域展現出廣泛的應用價值,機器翻譯、語音識別到情感分析、智能客服等,無一不體現著NLP技術的強大能力。本文將深入探討NLP技術
    的頭像 發表于 07-04 14:35 ?580次閱讀

    深度學習與傳統機器學習的對比

    人工智能的浪潮機器學習深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進
    的頭像 發表于 07-01 11:40 ?1509次閱讀

    [RK3588入門精通]系列內容專欄目錄及介紹

    [RK3588入門精通] 專欄目錄及介紹
    的頭像 發表于 04-10 10:40 ?800次閱讀
    [RK3588<b class='flag-5'>從</b>入門<b class='flag-5'>到</b>精通]系列內容<b class='flag-5'>專欄</b>目錄及介紹

    FPGA深度學習應用或將取代GPU

    硬件公司供貨的不斷增加,GPU 深度學習的市場需求還催生了大量公共云服務,這些服務為深度學習
    發表于 03-21 15:19
    主站蜘蛛池模板: 国产AV视频一区二区蜜桃 | 俄罗斯大白屁股 | 涩涩视频www在线观看入口 | 天天日免费观看视频一1 | 视频网站入口在线看 | 免费久久狼人香蕉网 | 国产亚洲精品久久久999蜜臀 | 一个人的HD高清在线观看 | 国产伦精品一区二区三区精品 | 国产69精品麻豆久久久久 | 午夜福利小视频400 午夜福利网国产A | 哒哒哒高清视频在线观看 | 强奸日本美女小游戏 | 小SAO货叫大声点妓女 | 男人插曲视频大全免费网站 | 好湿好滑好硬好爽好深视频 | 护士喂我吃乳液我脱她内裤 | 国产人妻麻豆蜜桃色69 | 中文字幕人妻无码系列第三区 | va亚洲va天堂va视频在线 | 亚洲精品乱码久久久久久中文字幕 | 少妇无码太爽了视频在线播放 | 国产国产乱老熟视频网站 | 国产在线观看99 | 夜色88V精品国产亚洲AV | 伊人国产在线视频 | 999久久精品国产 | 国产亚洲精品精华液 | 国产又色又爽又刺激在线播放 | 99久久亚洲精品影院 | 国产精品久久久久久久A片冻果 | 99国产小视频 | 日日噜噜大屁股熟妇 | 午夜在线观看免费完整直播网 | 成人在线观看视频免费 | 久久中文字幕免费高清 | 777福彩社区| 中文字幕在线观看亚洲日韩 | 免费观看视频成人国产 | 免费果冻传媒在线完整观看 | 久久视热频国产这里只有精品23 |