亚洲国产成人精品无码区 ,亚洲资源在线观看,艳母淫臀

40年前，英國科幻作家Douglas Ad ams在他的《銀河系漫游指南》中這樣描述巴別魚（bable fish）：迷你黃色生物，水蛭狀，以聲音中的語言概念為食，消化后排出跟寄主同頻的腦波。只要塞到耳朵里去，就可以聽懂各種語言。

而在這個充滿嬉皮風格的科幻作品中，來自地球的Arthur Dent也因為這條丑陋的魚，能夠完美地理解并與他遇到的各種外星種族交流。

自小說誕生，巴別魚便成為了即時語音翻譯的代名詞。但在當時，人類的翻譯技術距離這一目標仍遙不可及。

直到2014年，加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發(fā)布了一篇在機器翻譯領域應用神經(jīng)網(wǎng)絡的論文——Neural Machine Translation by Jointly Learning to Align and Translate。

神經(jīng)網(wǎng)絡的出現(xiàn)，讓優(yōu)質高效的機器翻譯不再遙遙無期。

每次技術的突破都讓我們離巴別魚更近一步，直到今天，谷歌的發(fā)布了一項新研究Translatotron，這是一種可以實現(xiàn)端到端的語音轉語音的翻譯技術。該工具放棄了將語音翻譯成文本在返回語音的步驟，可以直接從一種語言轉換稱另外一種語言，并同時保持說話著的語調和節(jié)奏。

告別Siri，我們先來感受一下翻譯的調調：

通過結合揚聲器編碼器網(wǎng)絡，使得Translatotron能夠在翻譯的語音中保留原始揚聲器的聲音特征，這使得翻譯的語音聽起來更自然，更少刺耳。

更多聲音樣本可以在Translatotron的Google Research的Github頁面上找到。

此功能利用了谷歌之前specker verification 和 speaker adaptation for TTS 的研究。揚聲器編碼器在specker verification任務上預先訓練，學習從簡短的示例話語對揚聲器特性進行編碼。即使內(nèi)容是不同的語言，該編碼上調節(jié)頻譜圖解碼器也可使得合成具有類似揚聲器特性的語音。

Translatotron模型

其實語音翻譯的端到端模型的早在2016年就開始出現(xiàn)了，當時研究人員證明了使用單個序列到序列模型進行語音到文本翻譯的可行性。

2017年，谷歌研究員們證明了這種端到端模型可以勝過cascade模型。之后又進一步改進許多端到端語音到文本翻譯模型的方法。

最終在2019年，谷歌的研究員們在arXiv發(fā)表Translatotron模型，通過證明單個序列到序列模型可以直接將語言從一種語言翻譯成另一種語言的語音，而不依賴于任何一種語言的中間文本表示。

Translatotron基于序列到序列網(wǎng)絡將源光譜圖作為輸入并生成目標語言中的翻譯內(nèi)容的光譜圖輸出。它還使用了另外兩個經(jīng)過單獨訓練的組件：神經(jīng)聲碼器將輸出頻譜圖轉換為時域波形，使用揚聲器編碼器來保持合成的翻譯語音中源說話者的語音的特征。

在訓練期間，序列到序列模型使用多任務目標來在生成目標譜圖的同時預測源和目標轉錄物。

Translatotron的模型結構

該團隊稱，翻譯的準確性并不如傳統(tǒng)翻譯系統(tǒng)那么好，傳統(tǒng)系統(tǒng)有更多時間來磨練其準確性。但Translatotron是第一個能夠將語言從一種語言直接翻譯成另一種語言的語音的端到端模型。他們希望這項工作可以作為未來端到端語音轉語音翻譯系統(tǒng)研究的起點。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6192

瀏覽量
105814
語音識別

語音識別

+關注

關注
38

文章
1742

瀏覽量
112826

原文標題：巴別魚雛形，谷歌推出端到端語音翻譯技術，還能模仿你說話

文章出處：【微信號：BigDataDigest，微信公眾號：大數(shù)據(jù)文摘】歡迎添加關注！文章轉載請注明出處。

AI助力實時翻譯耳機

你是否曾經(jīng)因為語言障礙而無法與外國人順暢交流？或者在旅行中因為語言不通而錯過了一些精彩的經(jīng)歷？現(xiàn)在，隨著AI技術的發(fā)展，實時翻譯耳機可以幫你輕松解決這些問題。 1 什么是實時翻譯耳機實時翻譯

發(fā)表于 01-24 11:14 ?201次閱讀

端到端自動駕駛技術研究與分析

編者語：「智駕最前沿」微信公眾號后臺回復：C-0450，獲取本文參考報告：《端到端自動駕駛行業(yè)研究報告》pdf下載方式。自動駕駛進入2024年，端

發(fā)表于 12-19 13:07 ?286次閱讀

階躍星辰發(fā)布國內(nèi)首個千億參數(shù)端到端語音大模型

近日，階躍星辰在官方公眾號上宣布了一項重大突破——推出Step-1o千億參數(shù)端到端語音大模型。該模型被譽為“國內(nèi)首個千億參數(shù)

發(fā)表于 12-17 13:43 ?272次閱讀

準確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮，目前諸多工作開始研究如何利用 LLM 來實現(xiàn)端到端的語音

發(fā)表于 12-17 10:21 ?265次閱讀

LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠，快來體驗！

01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠是一款由LLMWorld新推出的代碼翻譯工具，支持各種語言之間的翻譯，包括計算機語言

發(fā)表于 12-09 11:11 ?372次閱讀

爆火的端到端如何加速智駕落地？

編者語：「智駕最前沿」微信公眾號后臺回復：C-0551，獲取本文參考報告：《智能汽車端到端技術研究報告》pdf下載方式。 “端

發(fā)表于 11-26 13:17 ?371次閱讀

Waymo利用谷歌Gemini大模型,研發(fā)端到端自動駕駛系統(tǒng)

邁新步，為其機器人出租車業(yè)務引入了一種基于谷歌多模態(tài)大語言模型（MLLM）“Gemini”的全新訓練模型——“端到端多模態(tài)自動駕駛模型”（E

發(fā)表于 10-31 16:55 ?1145次閱讀

智己汽車“端到端”智駕方案推出，老司機真的會被取代嗎？

隨著智能駕駛技術的發(fā)展，行業(yè)已經(jīng)從早期基于簡單規(guī)則和模塊化邏輯的自動駕駛，逐步邁向依托深度學習的高復雜度智能駕駛解決方案，各車企也緊跟潮流，先后宣布了自己的端到端智駕方案。就在近期，智

發(fā)表于 10-30 09:47 ?334次閱讀

端到端讓智駕強者愈強時代來臨？

編者語：「智駕最前沿」微信公眾號后臺回復： C-0572 ，獲取本文參考報告：《信達證券：端到端革命開啟，強者愈強時時代即將來臨》pdf下載方式。隨著科技進步和汽車技術的發(fā)展，智能

發(fā)表于 10-24 09:25 ?553次閱讀

端到端InfiniBand網(wǎng)絡解決LLM訓練瓶頸

ChatGPT對技術的影響引發(fā)了對人工智能未來的預測，尤其是多模態(tài)技術的關注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4，使各個領域取得了顯著的發(fā)展。這些AI進步是通過大規(guī)模模型訓練實現(xiàn)

發(fā)表于 10-23 11:26 ?520次閱讀

端到端測試用例怎么寫

編寫端到端測試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關鍵步驟。以下是一個詳細的指南，介紹如何編寫端到端

發(fā)表于 09-20 10:29 ?541次閱讀

實現(xiàn)自動駕駛，唯有端到端？

，去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕，今年大家的目標都瞄到了端到端（End-to-End, E2E）。端到

發(fā)表于 08-12 09:14 ?824次閱讀

DeepL推出新一代翻譯編輯大型語言模型

在人工智能與語言處理領域，DeepL再次以其創(chuàng)新實力引領潮流，宣布成功推出新一代面向翻譯與編輯應用的大型語言模型。這一里程碑式的進展，不僅鞏固了DeepL作為頂尖語言人工智能公司的地位，更標志著機器翻譯

發(fā)表于 07-19 15:56 ?722次閱讀

循環(huán)神經(jīng)網(wǎng)絡在端到端語音識別中的應用

（Recurrent Neural Networks, RNN）在語音識別領域的應用日益廣泛，特別是在端到端語音識別系統(tǒng)中，RNN及其變體如

發(fā)表于 07-08 11:09 ?653次閱讀

開源項目！設計一款智能手語翻譯眼鏡

手語翻譯的依賴。這款眼鏡的設計既實用又低調，方便日常佩戴，能夠無縫融入用戶的日常生活中，讓使用者能夠輕松地與不懂手語的人士溝通。它的亮點在于利用人工智能技術檢測手勢并進行實時翻譯，不

發(fā)表于 05-20 15:59