一级毛片在线观看免费,乌克兰鲜嫩xxxx,一级生性活片免费视频影片

今天，谷歌發(fā)布Translatotron語音翻譯系統(tǒng)，這是第一個可以直接將一個人的聲音從一種語言轉(zhuǎn)換成另一種語言，同時保持說話人的聲音和節(jié)奏的翻譯模型。

讓說不同語言的人更容易地、直接地相互交流，這是語音到語音的翻譯系統(tǒng)(Speech-to-speech translation)的目的，這樣的系統(tǒng)在過去幾十年里取得了不錯的進(jìn)展。

傳統(tǒng)上，語音翻譯系統(tǒng)通常有3個獨立的部分：自動語音識別將源語音轉(zhuǎn)錄為文本，機(jī)器翻譯將轉(zhuǎn)錄的文本翻譯成目標(biāo)語言，最后，文本到語音合成(TTS)系統(tǒng)將翻譯文本轉(zhuǎn)換成目標(biāo)語言的語音。

許多商業(yè)語音到語音翻譯的產(chǎn)品都采用這樣的系統(tǒng)，包括Google Translate。但是，這類系統(tǒng)依賴于中間文本，準(zhǔn)確率不高，而且效率較低。

谷歌的新工具Translatotron舍棄了將語音翻譯為文本再返回語音的步驟，而是采用端到端的技術(shù)，直接將說話者的聲音翻譯成另一種語言。這使它能夠快速地翻譯，但更重要的是，能夠更容易反映說話人的語調(diào)和節(jié)奏。

在論文《基于序列到序列模型的直接語音到語音翻譯》(Direct speech-to-speech translation with a sequence-to-sequence model）中，谷歌的研究人員提出一種基于單個注意力序列到序列模型的直接語音到語音翻譯的新實驗系統(tǒng)，該系統(tǒng)不依賴于中間文本表示。

這個系統(tǒng)被稱為Translatotron，避免了將任務(wù)劃分為獨立的階段，比級聯(lián)系統(tǒng)更有優(yōu)勢，包括推理速度快、自然地避免了識別和翻譯之間的復(fù)合錯誤，能夠在翻譯后保留原說話者的聲音，以及能夠更好地處理不需要翻譯的單詞(如名稱和專有名詞)。

Translatotron：不依賴中間文本，直接翻譯語音

語音翻譯端到端模型的出現(xiàn)始于2016年，當(dāng)時研究人員證明了使用單個序列到序列模型進(jìn)行語音到文本翻譯的可行性。2017年，我們證明了這種端到端模型可以超越級聯(lián)模型(cascade models)。

最近有許多工作進(jìn)一步改進(jìn)了端到端語音到文本翻譯模型的方法，包括同樣來自谷歌的利用弱監(jiān)督數(shù)據(jù)的工作(https://arxiv.org/abs/1811.02050)。

Translatotron更進(jìn)一步，證明了單個序列到序列模型可以直接將一種語言的語音翻譯成另一種語言的語音，而不需要像級聯(lián)系統(tǒng)那樣依賴于任何一種語言的中間文本表示。

Translatotron基于一個sequence-to-sequence網(wǎng)絡(luò)，它將源聲譜圖(spectrograms)作為輸入，生成目標(biāo)語言翻譯內(nèi)容的聲譜圖。

輸入和生成的聲譜圖

此外，Translatotron還使用了另外兩個單獨訓(xùn)練的組件：一個神經(jīng)聲音編碼器(neuralvocoder)，可以將輸出聲譜圖轉(zhuǎn)換為時域波形；另外，還可以選擇使用一個speaker encoder，用于在合成翻譯語音時保持源speaker的語音特征。

在訓(xùn)練過程中，序列到序列模型使用一個多任務(wù)目標(biāo)預(yù)測源和目標(biāo)轉(zhuǎn)錄文本，同時生成目標(biāo)聲譜圖。然而，推理過程中不需要使用轉(zhuǎn)錄文本或其他中間文本表示。

Translatotron的模型結(jié)構(gòu)

性能

谷歌通過測量BLEU分?jǐn)?shù)來驗證Translatotron的翻譯質(zhì)量。該分?jǐn)?shù)是通過語音識別系統(tǒng)轉(zhuǎn)錄的文本計算的。雖然結(jié)果落后于傳統(tǒng)的級聯(lián)系統(tǒng)，但已經(jīng)證明了端到端直接語音到語音轉(zhuǎn)換的可行性。

對比Translatotron到基線級聯(lián)方法的直接語音到語音翻譯輸出，在這種情況下，兩個系統(tǒng)都提供合適的翻譯并使用相同的規(guī)范語音很自然的說話。

保持聲音特征

通過結(jié)合揚(yáng)聲器編碼器網(wǎng)絡(luò)，Translatotron還能夠在翻譯的語音中，保留原始說話者的聲音特征，這使得翻譯的語音聽起來更自然，不那么刺耳。

此功能利用了之前針對TTS的演講者驗證和演講者調(diào)整的Google研究。揚(yáng)聲器編碼器在演講者驗證任務(wù)上進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)從簡短的示例話語對揚(yáng)聲器特性進(jìn)行編碼。在該編碼上調(diào)節(jié)頻譜圖解碼器，即使內(nèi)容是在不同的語言中，也可以合成具有類似揚(yáng)聲器特性的語音。

谷歌提供了諸多使用示例，如下面的例子，Translatotron將西班牙語對話轉(zhuǎn)換為英語，下面的音頻分別是西班牙語輸入、真人參考翻譯，以及Translatotron的翻譯。

（由于微信智能插入一個音頻，請點擊原文鏈接聽更多語音。）

Translatotron的翻譯：

更多示例：

https://google-research.github.io/lingvo-lab/translatotron/#conversational

在這個例子中，Translatotron提供比基線級聯(lián)模型更準(zhǔn)確的平移，同時能夠保留原始說話者的聲音特征。保留原始說話者聲音的Translatotron輸出訓(xùn)練的數(shù)據(jù)，少于使用規(guī)范聲音的數(shù)據(jù)，因此它們產(chǎn)生的翻譯略有不同。

結(jié)論

谷歌聲稱，Translatotron是第一個可以直接將一種語言的語音，翻譯成另一種語言的語音的端到端模型。它還能夠在翻譯的語音中保留源說話者的聲音。谷歌希望這項工作可以作為未來端到端語音轉(zhuǎn)語音翻譯系統(tǒng)研究的起點。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3708

瀏覽量
135782
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6211

瀏覽量
106516
語音

語音

+關(guān)注

關(guān)注
3

文章
390

瀏覽量
38249

原文標(biāo)題：同聲傳譯被攻陷！谷歌發(fā)布Translatotron直接語音翻譯系統(tǒng)

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

谷歌“減法”新動作：砍掉耳機(jī)按鍵喚醒朗讀功能

電子發(fā)燒友網(wǎng)報道（文/莫婷婷）近期，谷歌宣布將對耳機(jī)上的 Google Assistant語音助手功能進(jìn)行調(diào)整，取消通過觸控喚醒助理“自動朗讀未讀通知”的功能。谷歌表示，要想完成該功能可以通過

發(fā)表于 02-22 22:56 ?1900次閱讀

AI助力實時翻譯耳機(jī)

是一種能夠?qū)崟r將一種語言翻譯成另一種語言的耳機(jī)設(shè)備。它通常由一個耳機(jī)和一個配套的應(yīng)用程序組成，用戶可以通過應(yīng)用程序選擇需要翻譯的語言，并通過耳機(jī)聽到翻譯結(jié)果。 2 實時翻譯耳機(jī)是如何工

發(fā)表于 01-24 11:14 ?753次閱讀

基于語音識別的智能會議系統(tǒng)具備哪些交互功能

標(biāo)貝科技專注智能語音交互領(lǐng)域多年，在語音識別和語音合成領(lǐng)域有著多項大型企業(yè)合作案例，標(biāo)貝與多個智能會議系統(tǒng)廠商合作，成功將語音識別技術(shù)在智能

發(fā)表于 12-20 10:35 ?328次閱讀

谷歌與三星聯(lián)合發(fā)布Android XR操作系統(tǒng)

系統(tǒng)整合了谷歌在人工智能、增強(qiáng)現(xiàn)實(AR)以及虛擬現(xiàn)實(VR)領(lǐng)域的技術(shù)積累，充分展現(xiàn)了谷歌在技術(shù)創(chuàng)新方面的實力。通過這一系統(tǒng)，用戶將能夠享受到更加逼真、生動的虛擬世界，以及更加智能、

發(fā)表于 12-16 10:08 ?345次閱讀

谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍

在智能體時代，谷歌再次引領(lǐng)技術(shù)潮流，正式發(fā)布了其最新力作——Gemini 2.0。這款A(yù)I模型不僅在性能上實現(xiàn)了顯著提升，更是在多模態(tài)表現(xiàn)和原生工具應(yīng)用方面展現(xiàn)了前所未有的強(qiáng)大功能。 Gemini

發(fā)表于 12-12 14:22 ?529次閱讀

基于Arm Neoverse N2實現(xiàn)自動語音識別技術(shù)

自動語音識別 (Automatic Speech Recognition) 技術(shù)已經(jīng)深入到現(xiàn)代生活的方方面面，廣泛應(yīng)用于從語音助手、轉(zhuǎn)錄服務(wù)，到呼叫中心分析和語音轉(zhuǎn)文本翻譯等方面，為各

發(fā)表于 11-15 11:35 ?566次閱讀

谷歌計劃12月發(fā)布Gemini 2.0模型

近日，有消息稱谷歌計劃在12月發(fā)布其下一代人工智能模型——Gemini 2.0。這一消息引發(fā)了業(yè)界的廣泛關(guān)注，因為谷歌在人工智能領(lǐng)域一直保持著領(lǐng)先地位，而Gemini系列模型更是其重要的產(chǎn)品之一。

發(fā)表于 10-29 11:02 ?849次閱讀

阿里國際發(fā)布翻譯大模型Marco

近日，阿里國際正式推出了其翻譯大模型——Marco。這款模型已在阿里國際AI官網(wǎng)Aidge上線，并向全球用戶開放使用。

發(fā)表于 10-17 16:07 ?438次閱讀

谷歌推出Gemini Live，開啟AI語音聊天新紀(jì)元

在萬眾矚目的Pixel 9系列手機(jī)發(fā)布會上，谷歌震撼宣布了一項創(chuàng)新服務(wù)——Gemini Live，該服務(wù)自今日起，率先向使用英語的Gemini Advanced訂閱用戶敞開大門。這一舉措標(biāo)志著谷歌在人工智能

發(fā)表于 08-15 17:29 ?836次閱讀

谷歌發(fā)布新型大語言模型Gemma 2

在人工智能領(lǐng)域，大語言模型一直是研究的熱點。近日，全球科技巨頭谷歌宣布，面向全球研究人員和開發(fā)人員，正式發(fā)布了其最新研發(fā)的大語言模型——Gemma 2。這款模型以其高效能和低成本的特點，引起了業(yè)界的廣泛關(guān)注。

發(fā)表于 06-29 09:48 ?562次閱讀

車載語音識別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

車載語音識別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實現(xiàn)的一種自然語言處理技術(shù)，載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量，將所聽到的語音轉(zhuǎn)化成可讀取的語

發(fā)表于 06-19 15:52 ?456次閱讀

車載語音識別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

車載語音識別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實現(xiàn)的一種自然語言處理技術(shù)，載語音識別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量，將所聽到的語音轉(zhuǎn)化成可讀取的語

發(fā)表于 06-19 15:49 ?648次閱讀

開源項目！設(shè)計一款智能手語翻譯眼鏡

這個項目是一款創(chuàng)新的智能手語翻譯眼鏡，它能夠?qū)崟r地將手語轉(zhuǎn)換為聽得見的語音。這款眼鏡采用了VIAM平臺和樹莓派Zero 2 W，能夠幫助聾人或聽力受損的人士更自由、獨立地與他人交流，減少對第三方

發(fā)表于 05-20 15:59

谷歌發(fā)布多模態(tài)AI新品，加劇AI巨頭競爭

在全球AI競技場上，谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日，谷歌在I/O開發(fā)者大會上掀起了一股新的技術(shù)浪潮，發(fā)布了多款全新升級的多模態(tài)AI產(chǎn)品。

發(fā)表于 05-16 09:28 ?520次閱讀

谷歌發(fā)布用于輔助編程的代碼大模型CodeGemma

谷歌發(fā)布了用于輔助編程的代碼大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月發(fā)布的輕量級開源大模型 Gemma，針對 Gemma 的兩個不同參數(shù)規(guī)模的版本 Gemm

發(fā)表于 04-17 16:07 ?840次閱讀