色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在機器學習中如何進行基本翻譯

zhKF_jqr_AI ? 來源:未知 ? 作者:易水寒 ? 2017-12-22 11:38 ? 次閱讀

Statsbot數據科學家Daniil Korbut簡明扼要地介紹了用于機器學習翻譯的基本原理:RNN、LSTM、BRNN、Seq2Seq、Zero-Shot、BLEU。

我們都在使用的很多技術,我們其實并不知道它們到底是如何工作的。實際上,理解機器學習驅動的引擎并非易事。Statsbot團隊博客希望能講清楚機器學習是怎么一回事。這次我們決定探索機器翻譯,并解釋Google翻譯算法的原理。

許多年前,翻譯來自未知語言的文本是非常耗時的。使用簡單的詞匯表逐字翻譯之所以很困難,是因為讀者必須知道語法規則,在翻譯整句時需要記住所有的語言版本。

現在,我們不需要為此付出太多的努力——只需將它們粘貼到Google翻譯中,就可以翻譯短語、句子甚至大段文本。然而,大多數人實際上并不關心機器翻譯的引擎是如何工作的。本文為那些關心這個的人而寫。

深度學習翻譯問題

如果Google翻譯引擎試圖儲存所有的翻譯,甚至僅僅儲存短句的翻譯,都是行不通的,因為可能的變體數量巨大。最好的想法可能是教會計算機一組語法規則,并根據語法規則來翻譯句子,如果這一切真像聽起來那樣簡單的話。

如果你曾經試過學習外語,那么你該知道規則總是有很多例外的。當我們試圖在程序中刻畫所有這些規則,所有這些例外,乃至例外的例外時,翻譯質量就崩塌了。

現代機器翻譯系統使用不同的方法:通過分析大量文檔將文本與規則聯系起來。

創建你自己的簡單機器翻譯工具,對任何數據科學簡歷來說都是一個很棒的項目。

我們試著調查一下我們稱之為機器翻譯的“黑盒子”里隱藏著什么。深度神經網絡可以在非常復雜的任務(語音/視覺對象識別)中取得優異的結果,但是,盡管它們很靈活,卻只能應用于具有固定維度的輸入和目標的任務。

循環神經網絡

因此,我們需要長短期記憶網絡(LSTM),它能應對事先未知長度的序列。

LSTM是一種能夠學習長期依賴的循環神經網絡(RNN)。循環神經網絡看起來就像一串重復的模塊。

在機器學習中如何進行基本翻譯

via colah.github.io

因此LSTM在模塊之間傳遞數據,比如,為了生成Ht,我們不僅使用Xt,同時使用所有X之前的輸入。關于LSTM的更多信息,可參考Understanding LSTM Networks(英文)和循環神經網絡入門(中文)。

雙向循環神經網絡

我們的下一步是雙向循環神經網絡(BRNN)。 BRNN將常規RNN的神經元分成兩個方向。一個方向是正向的時間,或前饋狀態。另一個方向是負向的時間,或反饋狀態。這兩個狀態的輸出與反方向的狀態的輸入互不相連。

在機器學習中如何進行基本翻譯

要理解為何BRNN效果更好,可以想像一下我們有一個包含9個單詞的句子,然后想要預測第5個單詞。我們可以讓網絡僅僅知道前面4個單詞,或者讓網絡知道前面4個單詞和后面4個單詞。顯然第二種情況下預測的質量會更好。

序列到序列

然后是序列到序列模型(也稱為seq2seq)。基本的seq2seq模型包含兩個RNN:一個處理輸入的編碼網絡和一個生成輸出的解碼網絡。

最后,我們將創建我們的第一個機器翻譯工具!

不過,讓我們先考慮一個絕招。Google翻譯目前支持103種語言,所以我們應該有103x102個不同的模型。當然,取決于語言的流行程度和訓練網絡需要的文檔數量,這些模型的質量會有所不同。最好我們能創建一個神經網絡,然后這個網絡能接受任何語言作為輸入,然后將其翻譯成任何語言。

Google翻譯

這個想法正是Google工程師們在2016年末實現的想法。Google工程師使用的正是我們上文提及的seq2seq模型。

唯一的例外是在編碼和解碼網絡之間有8層LSTM-RNN網絡,層間有殘差連接,還有一些出于精度和速度考慮的調整。如果你想深入了解相關信息,可以看Google’s Neural Machine Translation System這篇論文。

最重要的一點是Google的翻譯算法使用單個系統,而不是包含每對語言組合的龐大集合。

在輸入句子的開始,系統需要一個指明目標語言的token。

這一方法改善了翻譯的質量,同時允許翻譯那些系統沒有見過對應譯文語料的語言組合,這一方法稱為“零樣本翻譯”(Zero-Shot Translation)。

更好的翻譯?

當我們談論Google翻譯算法的改進和更好的結果時,我們如何才能正確地評估第一個翻譯候選比第二個候選更好呢?

這不是一個微不足道的問題,因為對于一些常用的句子,我們有來自專業譯員的參考譯文集合,這些譯文間當然有一些差異。

能部分解決這個問題的方法有很多,但最流行和最有效的衡量標準是BLEU(bilingual evaluation understudy)。 想象一下,我們有來自機器翻譯的兩個候選:

候選一: Statsbot makes it easy for companies to closely monitor data from various analytical platforms via natural language.

候選二:Statsbot uses natural language to accurately analyze businesses’ metrics from different analytical platforms.

在機器學習中如何進行基本翻譯

盡管它們的意思相同,但在質量和結構上都有差異。

讓我們看下兩個來自人類的翻譯:

Reference 1: Statsbot helps companies closely monitor their data from different analytical platforms via natural language.

Reference 2: Statsbot allows companies to carefully monitor data from various analytics platforms by using natural language.

顯然,候選一更好,與候選二相比,候選一和人工翻譯共享更多的單詞和短語。這是簡單BLEU方法的核心想法。我們可以比較候選翻譯和參考翻譯的n元語法,并計算匹配的數量(與它們的位置無關)。我們只評估n元語法的準確率,因為計算多個參考的召回很困難,評估結果是n元語法的幾何平均值。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴

原文標題:機器學習翻譯基本原理

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    zeta機器學習的應用 zeta的優缺點分析

    探討ZETA機器學習的應用以及ZETA的優缺點時,需要明確的是,ZETA一詞不同領域可能
    的頭像 發表于 12-20 09:11 ?247次閱讀

    cmp機器學習的作用 如何使用cmp進行數據對比

    機器學習領域,"cmp"這個術語可能并不是一個常見的術語,它可能是指"比較"(comparison)的縮寫。 比較機器
    的頭像 發表于 12-17 09:35 ?202次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”計算機系統主要以數據的形式存在,因此機器學習需要設法對數據進行分析
    的頭像 發表于 11-16 01:07 ?416次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    eda機器學習的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程不可或缺的一部分。 1. 數據清洗 數據清洗 是機器
    的頭像 發表于 11-13 10:42 ?317次閱讀

    魯棒性機器學習的重要性

    金融風險評估。這些應用場景對模型的魯棒性提出了極高的要求。 魯棒性的定義 魯棒性通常被定義為系統面對不確定性和變化時仍能保持其功能的能力。機器學習
    的頭像 發表于 11-11 10:19 ?371次閱讀

    TINA何進行頻譜分析?

    想問一下TINA何進行頻譜分析,找了好久沒怎么找到,可能設置不對,望指點,謝謝
    發表于 09-14 07:56

    何進行電源供應設計

    電子發燒友網站提供《如何進行電源供應設計.pdf》資料免費下載
    發表于 09-09 10:33 ?0次下載
    如<b class='flag-5'>何進行</b>電源供應設計

    何進行IP檢測

    排查網絡連接問題,并及時的防范潛在的網絡攻擊。 那么,如何進行 IP 地址檢測呢?接下來我將進行圖示哦~ 使用操作系統自帶的工具 ① Windows 系統,按win+R,輸入“ipconfig”命令。 ② Mac 系統
    的頭像 發表于 07-26 14:09 ?556次閱讀
    如<b class='flag-5'>何進行</b>IP檢測

    求助,IR615可以選用哪種vpn協議?如何進行配置?

    現有多臺IR615路由器,希望將其配置為vpn客戶端,連接云服務器的vpn服務端 工程師遠程連接云服務器對IR615進行管理 IR615可以選用哪種vpn協議?如何進行配置? 服務
    發表于 07-25 07:53

    機器學習的數據分割方法

    機器學習,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器
    的頭像 發表于 07-10 16:10 ?1821次閱讀

    機器學習的數據預處理與特征工程

    機器學習的整個流程,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和特征工程的基本概念出發,詳細探討這
    的頭像 發表于 07-09 15:57 ?444次閱讀

    深度學習工業機器視覺檢測的應用

    隨著深度學習技術的快速發展,其工業機器視覺檢測的應用日益廣泛,并展現出巨大的潛力。工業機器視覺檢測是工業自動化領域的重要組成部分,通過圖
    的頭像 發表于 07-08 10:40 ?1076次閱讀

    深度學習與傳統機器學習的對比

    人工智能的浪潮機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管
    的頭像 發表于 07-01 11:40 ?1403次閱讀

    開源項目!設計一款智能手語翻譯眼鏡

    手語翻譯的依賴。 這款眼鏡的設計既實用又低調,方便日常佩戴,能夠無縫融入用戶的日常生活,讓使用者能夠輕松地與不懂手語的人士溝通。它的亮點在于利用人工智能技術檢測手勢并進行實時翻譯,不
    發表于 05-20 15:59

    機器學習怎么進入人工智能

    ,人工智能已成為一個熱門領域,涉及到多個行業和領域,例如語音識別、機器翻譯、圖像識別等。 在編程中進行人工智能的關鍵是使用機器學習算法,這是一類基于樣本數據和模型訓練來
    的頭像 發表于 04-04 08:41 ?330次閱讀
    主站蜘蛛池模板: 真人美女精美小穴| 最近中文字幕高清中文| 免费夜里18款禁用软粉色| 国产午夜精AV在线麻豆| 国产99在线视频| 成人区在线观看免费视频| 99在线这精品视频| A级韩国乱理伦片在线观看| 97在线免费观看视频| 18av 在线| 91麻豆精品国产一级| 99精品在线| np高h肉文| YELLOW视频直播在线观看| 办公室激情在线观看| 成人精品视频在线观看| 各种肉黄浪荡故事集| 国产国产人免费观看在线视频| 国产成人免费全部网站| 国产极品美女视频福利| 国产老师开裆丝袜喷水漫画| 国产亚洲高清视频| 精品丰满人妻无套内射| 久久伊人电影| 男生射女生| 秋秋影视午夜福利高清| 日本枯瘦娇小| 玩两个少妇女邻居| 亚洲免费综合色视频| 一亲二脱三插| 99热久久爱五月天婷婷| 成人a视频片在线观看免费| 高清欧美videos sexo| 国产精品视频人人做人人爽| 国内精品伊人久久久影院| 久久精品国产免费播放| 免费看欧美xxx片| 肉肉高潮液体高干文H| 亚洲国产成人一区二区在线| 曰本xxⅹ孕妇性xxx| jjzz动漫|