色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta開源NLLB翻譯模型,支持200種語言互譯

深度學習自然語言處理 ? 來源:量子位 ? 作者:量子位 ? 2022-07-21 11:08 ? 次閱讀

這個翻譯模型,不僅支持200+語言之間任意兩兩互譯,還是開源的。Meta AI在發布開源大型預訓練模型OPT之后,再次發布最新成果NLLB。

NLLB的全稱為No Language Left Behind,如果套用某著名電影,可以翻譯成“一個語言都不能少”。

caaf98f6-0818-11ed-ba43-dac502259ad0.png

這其中,中文分為簡體繁體和粵語三種,而除了中英法日語等常用語種外,還包括了許多小眾語言。

cace7ece-0818-11ed-ba43-dac502259ad0.png

▲NLLB支持的部分語種截圖

由于這些語言之間都可以兩兩互譯,所以咱們能用NLLB把阿斯圖里亞語、盧甘達語、烏爾都語等地球上的小眾語言直接譯成中文了。

一位用粵語的靚仔看到這里直接喜大普奔。

caf5c984-0818-11ed-ba43-dac502259ad0.png

要知道,此前的眾多語言模型,要么不支持這么多種語言,要么不能直接完成小眾語言之間的兩兩翻譯。

有了NLLB,世界各地的人都有機會以自己的母語訪問和分享網絡內容;并且無論他們的語言偏好如何,都可以與他人在任意地方溝通。

Meta稱,他們計劃先將這個技術應用于Facebook和Instagram,以提升這些平臺上小眾語言的計算機翻譯水平。

同時,這也是他們元宇宙計劃的一部分。而這項成果正式開源的消息,也受到廣受好評。

cb0a026e-0818-11ed-ba43-dac502259ad0.png

除了AI業內關心他們如何支持語料稀缺的冷門語言,以及如何在BLEU基準測試上提高7個點以外。也有來自西非的網友認為,語言障礙正是全球互聯網用戶數量進一步增長的關鍵。

cb1ccff2-0818-11ed-ba43-dac502259ad0.png

在Hacker News論壇上,大家也對這個AI議論紛紛。一個前端開發者說,自己的母語就是非常小眾的那種,僅有約一百萬人使用。

這位開發者此前從未見過對這種語言好用的AI翻譯軟件,而NLLB給他帶來了希望。

不過他認為,連著名的谷歌AI在處理“德-英-德”這樣語料豐富的語言翻譯時,都常常會出問題,所以他暫且對這個聲稱能翻譯好小眾語言的新模型持保留態度。

cb2b5ad6-0818-11ed-ba43-dac502259ad0.png

有網友給這位開發者支招兒,告訴他Meta開放了有支持翻譯的兒童書籍,可以去看看翻譯效果。

cb3de7e6-0818-11ed-ba43-dac502259ad0.png

還有人補充道,許多小眾語言有許多不同的自然變體,更偏于口語化,而沒有特定書面化標準,可以用多種文字書寫。所以,如何對小眾語言進行標準化是個棘手的問題。

cb4f5634-0818-11ed-ba43-dac502259ad0.png

怎么支持語料少的語言

這個掌握了200多種語言的AI模型是怎么訓練的?

據Meta AI介紹,他們的AI研究人員主要通過3個方面來解決一些語言語料少的問題。

其一是為語料少的語言自動構建高質量的數據集。研究者建立了一個多對多的多語言數據集Flores-200。專業的真人翻譯員和審稿人采用統一的標準,來保質保量地建立這個數據集。

首先,譯員們翻譯Flores-200的全部句子,并檢查;然后,獨立審查員小組開始審查翻譯質量,根據他們的評估將一些譯文送去進行后期編輯。

cb5fb39e-0818-11ed-ba43-dac502259ad0.png

如果質量評估表明,質量在90%以上,則認為該語言可以被納入Flores-200中。

cb6be876-0818-11ed-ba43-dac502259ad0.png

最終,Flores-200中包含了842篇不同文章的翻譯,共3001個句子。

其二,是對200種語言建模:研究者開發了一個語言識別系統LID(language identification systems),標記出某段文字是用哪種語言寫的。

用監督方式訓練的LID模型在看似流暢的句子上,可能難以識別處不正確語法和不完整的字符串。

此外,LID很容易學習到沒有意義的相關性。所以,在這個LID開發的不同階段,工程師們都和語言學家們保持著緊密合作來盡量規避這些問題。

為了對小眾語言進行較好的建模,研究者開發了一種“學生-教師挖掘法”(Student-Teacher Mining)該方法的內容是:讓一個大規模的多語言句子編碼器的教師模型,與幾個語料少的學生模型相互學習整合。

cb7e88fa-0818-11ed-ba43-dac502259ad0.png

這樣能夠在不和多語料語言爭奪容量的情況下,豐富小眾語言的訓練數據,保持了多語言嵌入空間的兼容性,避免從頭開始重新訓練整個模型。

其三,是將一個人工翻譯的評估基準:FLORES的覆蓋范圍擴大2倍,來評估每一種語言的翻譯質量。雖然自動評分是推動該研究的重要工具,但人工評價對于翻譯質量的評估也是必不可少的。

通過整合AI自動評分和人工評估,能夠廣泛量化翻譯水平,便于提升整理的翻譯質量。

為了讓更多程序員和工程師們能夠使用或完善NLLB,Meta開放了所有的評估基準(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和訓練代碼,以及最終的NLLB-200模型和其小型提煉版本等。

Meta AI已將這些內容開源,就在fariseq倉庫里面,感興趣的小伙伴們可以去看看。

論文地址:
https://research.facebook.com/publications/no-language-left-behind/
開源地址:
https://github.com/facebookresearch/fairseq/tree/nllb

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10320
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14927
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24797

原文標題:機器翻譯做到頭了?Meta開源NLLB翻譯模型,支持200種語言互譯

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    神經機器翻譯的方法有哪些?

    之間的翻譯,也就是通過只訓練一個模型就能夠支持在多個語言之間的翻譯。盡管目前最流行的Transformer
    發表于 11-23 12:14

    紫米電子推出ZMI旅行助手Z1,支持16語言互譯,實現交流無障礙溝通

    ZMI紫米旅行助手自帶的語音翻譯功能,可以支持中文和16語言互譯,整合微軟人工智能翻譯和獵戶星
    發表于 09-12 16:57 ?4704次閱讀

    雙11霸榜硬貨全通路銷售冠軍訊飛翻譯機2.0神通何在

    支持中文和全球33語言的即時互譯,精準快速的翻譯功能,覆蓋各類全場景溝通需求;全新INMT翻譯
    的頭像 發表于 11-13 10:50 ?1792次閱讀

    訊飛翻譯機2.0重磅升級,率先發布行業A.I.翻譯

    國家出境需求 第一,首發行業A.I.翻譯,首批上線醫療/金融/計算機三大行業A.I.翻譯官,解決專業領域翻譯難點; 第二,語音翻譯從中文與33
    發表于 12-07 15:15 ?788次閱讀

    小米米家翻譯機最新發布,4.1英寸屏+18語言互譯

    11月22日消息,今天小米發布了米家翻譯機,采用4.1英寸大屏,專利6麥克風陣列技術,支持18語言互譯,售價1299元,將于11月26日1
    的頭像 發表于 11-22 16:43 ?5203次閱讀

    谷歌翻譯新增五語言支持 全世界超7500萬人使用這五語言

    據外媒報道,在過去的4年時間里,Google沒有在谷歌翻譯中增加對新語言支持。 經過長時間的修整后,該家公司今日終于宣布,它將在谷歌翻譯中增加對五
    的頭像 發表于 02-27 17:20 ?3652次閱讀

    微軟翻譯器新增五印度語言的實時翻譯 印度語言支持總數達到10

    微軟印度宣布,微軟翻譯器現在將提供古吉拉特語、馬拉地語、卡納達語、馬來語和旁遮普語五語言的實時翻譯。微軟翻譯器允許用戶使用Windows、
    的頭像 發表于 04-17 10:29 ?3547次閱讀

    Facebook的AI翻譯系統能翻譯100語言

    質量的 100 分制中,該人工智能的表現比同類翻譯系統高出 10 分。該模型翻譯也由人類進行了翻譯評估,其準確率約為 90%。 Facebook 的研究人員在網上收集了 100
    的頭像 發表于 10-30 09:25 ?2949次閱讀

    人工智能翻譯mRASP:可翻譯32語言

    利用計算機把一自然語言轉變成另一自然語言的過程就是機器翻譯。 機器翻譯對于信息時代下海量信息
    的頭像 發表于 12-01 14:03 ?3265次閱讀
    人工智能<b class='flag-5'>翻譯</b>mRASP:可<b class='flag-5'>翻譯</b>32<b class='flag-5'>種</b><b class='flag-5'>語言</b>

    支持Python和Java的BigCode開源輕量級語言模型

    BigCode 是一個開放的科學合作組織,致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型,該
    的頭像 發表于 01-17 14:29 ?984次閱讀

    Meta發布開源模型Code Llama 70B

    近日,Meta宣布推出了一款新的開源模型Code Llama 70B,這是其“Code Llama家族中體量最大、性能最好的模型版本”。這款新模型
    的頭像 發表于 01-31 09:24 ?1011次閱讀

    Meta發布CodeLlama70B開源模型

    Meta發布CodeLlama70B開源模型 Meta發布了開源模型CodeLlama70B
    的頭像 發表于 01-31 10:30 ?1458次閱讀

    Meta推出最強開源模型Llama 3 要挑戰GPT

    公司這次開源了Llama 3 8B與70B兩款不同規模的模型,開發者可以免費使用,而Meta公司還將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新
    的頭像 發表于 04-19 17:00 ?876次閱讀

    高通支持Meta Llama 3大語言模型在驍龍旗艦平臺上實現終端側執行

    高通和Meta合作優化Meta Llama 3大語言模型支持在未來的驍龍旗艦平臺上實現終端側執行。
    的頭像 發表于 04-20 09:13 ?555次閱讀

    Meta發布全新開源模型Llama 3.1

    科技巨頭Meta近期震撼發布了其最新的開源人工智能(AI)模型——Llama 3.1,這一舉措標志著Meta在AI領域的又一重大突破。Meta
    的頭像 發表于 07-24 18:25 ?1479次閱讀
    主站蜘蛛池模板: 在线免费观看国产 | 高清不卡伦理电影在线观看 | 日本一卡精品视频免费 | 国产在线高清亚洲精品一区 | 国产真实女人一级毛片 | 亚洲精品电影久久久影院 | 野花韩国高清完整版在线观看5 | 国产精品单位女同事在线 | 在线观看成人免费 | 欧美一区二区三区不卡免费 | Chinesetube国产中文| 国产一在线精品一区在线观看 | 嫩草AV久久伊人妇女 | 国产精品免费大片一区二区 | 毛片大片免费看 | 亚洲黄色免费在线观看 | ABO成结顶腔锁住 | 超级最爽的乱淫片免费 | 二次元美女扒开内裤喷水 | 久久免费看少妇级毛片蜜臀 | 97超碰97资源在线观看 | 北条麻妃久久99精品 | 两个客户一起吃我的奶 | 国产一及毛片 | 男生扒开美女尿口戳戳 | 中文字幕亚洲欧美在线视频 | 久久热精品18国产 | 国产无遮挡无码视频在线观看不卡 | 蜜芽丅v新网站在线观看 | www.伊人 | 国产在线视频一区二区不卡 | 国产成人自拍视频在线观看 | 久久内在线视频精品mp4 | 成人国产在线不卡视频 | china年轻小帅脸直播飞机 | 越南女 黑人 痛苦 大叫 | 国产一区二区精品视频 | 777精品久无码人妻蜜桃 | 蜜桃传媒星空传媒在线播放 | 成人无码国产AV免费看直播 | 99免费视频观看 |