四虎论坛,亚洲激情视频,色综合天天综合网国产成人

語音合成的目標是使得計算機能夠發出跟人一樣自然流暢且帶有感情的聲音，斯坦福的學者嘗試基于Tacotron實現了一個StoryTime模型，該模型依賴于一個編碼器、解碼器、以及注意力機制來模擬生成人類水平的頻譜，期望它可以替代成為說書的。

在谷歌發布Tacotron模型之前，wavenet也是完全用神經網絡來合成語音的模型，它采用自回歸的方法生成了讓人印象深刻的音頻，不過正是由于其自回歸的方法需要依賴于過去生成的所有樣本來生成新的樣本，因此其生成的速度十分緩慢，但是它可以捕捉不同說話人的特征，并且可以在他們之間隨意切換。

后來百度研究院發布了Deep Voice語音合成系統，不同于wavenet一體式的做法，DeepVoice的做法是將傳統的基于參數合成系統的各個組件均替換成了神經網絡，并且讓每個模塊各自進行訓練，該方法的缺點就是需要對每個模塊進行精細調參，這樣會出現錯誤累積的問題。

而Tacotron是一個完全端對端的語音合成模型（除了最后一步神經網絡沒有直接生成波形信號之外），它不需要額外的音素信息或語言模型，而是直接可以將文本轉化成語音，這也是本文StoryTime所采取的模型。

1. 預處理階段

首先要處理的就是收集音頻語料以及所對應的文本標簽，這里作者下載的是哈利波特的聽書音頻，以及對應的文本材料。接下來要做的就是對這個音頻進行分割以及賦予每個小音頻正確的文本標簽。對于文本其實比較好處理，因為章節之間的格式很明顯，很容易可以使用正則表達式來得到想要的分割。

對于音頻的分割就麻煩一些，因為目標是得到音頻與文字之間的大致對齊。由于章節與章節之間一般情況下都會出現大約3秒鐘的停頓，所以作者首先基于停頓大于3秒鐘進行分割，默認會得到不同的章節，然后有些章節與章節之間的停頓小于3秒，所以按上面方法分割的文件中會有包含了多個章節的情況，而這個又是無法自動分割的，因為容易與句子之間的停頓混淆。無奈之下，作者最終采用了聲學軟件Audible來手動對它們進行進一步的劃分，最終將劃分后的片段

放入開源的對齊軟件Gentle中，就可以得到樣本對。整個流程如下圖所示。

2.模型細節

這里采用的就是谷歌發布的Tacotron模型，如下圖所示，總的來說由五個部分構成，分別是文本編碼器、音頻特征編碼器、注意力、解碼器、合成器。下面我將逐一介紹每個部分。

首先，對于文本編碼器部分，將詞向量作為兩個帶ReLU激活函數的全連接層的輸入，并在這里采取了50%的dropout以提高模型的泛化能力，這一部分是對輸入的預訓練，論文中稱之為prenet。prenet的輸出作為CBHG網絡的輸入，其中CBHG網絡是由Convolutional Bank+Highway Network+GRU組成。這里作者使用了16層一維卷積網絡，因為輸入是單詞的embedding矩陣，一維卷積縱向作用到矩陣上面，16層卷積網絡分別擁有大小從1到16的不同的卷積核，通過這種不同大小卷積核的方式來提高模型泛化能力，并且每一層卷積都可以認為是一個起到k-gram的作用。然后經過池化層和highway network以得到更高維的特征，并輸入到雙向GRU網絡中得到序列層面特征，并將從prenet出來的輸出與這里進行連接，構成一個residual connection，最終得到的輸出就是作為注意力模型的上下文特征。

另一個模塊就是注意力和RNN解碼器，注意到對于每一幀頻譜的輸入，解碼器輸出的是r幀頻譜，這種做法可以加速執行時間，不過給訓練和生成的實現方法上帶來了差異。在訓練過程中，當預測了r幀梅爾頻譜以后，第r個時間點的頻譜標簽將作為模型的輸入，模型基于這個預測下一批r幀梅爾頻譜；在生成階段，除了一開始模型使用0填充的幀作為輸入以外，后面的時刻將會使用前一時刻輸出的r幀中的最后一幀梅爾頻譜作為輸入。如下圖所示，解碼器和注意力層中所用的均為GRU，注意力層是一個帶有Bahdanau注意力機制的GRU，解碼RNN由兩個帶有residual connection的GRU層構成，解碼器自始至終都是每步產生r幀輸出，最終解碼器的輸出作為CBHG網絡的輸入。這種解碼器只需要執行T/r步，假設T為輸入的總幀數。

對于解碼器的CBHG網絡，與前面編碼器CBHG唯一的不同之處在于這里使用的k是8而不是16，這是因為在這里數據的維度有所降低，經過卷積層得到輸出維度為80，剛好就是梅爾頻譜特征的維度。最后經過highway network和雙向GRU即可得到頻譜圖，利用griffin lim算法即可將該頻譜圖轉化成音頻。至于griffin lim算法的轉化效果，不是特別理想，因為即使是將一段清晰的音頻，提取其頻譜特征，通過griffin lim算法轉化出來的音頻相比于原始音頻還是多了一些噪音。

總結一下，這是一篇實踐性的文章，在谷歌的Tacotron論文發布以后，利用自己的數據來一步步調參優化進而搭建一個自己的語音合成系統。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3729

瀏覽量
136137
谷歌

谷歌

+關注

關注
27

文章
6215

瀏覽量
106810

原文標題：基于Tacotron模型的語音合成實踐

文章出處：【微信號：DeepLearningDigest，微信公眾號：深度學習每日摘要】歡迎添加關注！文章轉載請注明出處。

一個基于Tensorflow框架的開源Tacotron實現

Tacotron語音合成系統打破了各個傳統組件之間的壁壘，使得可以從配對的數據集上，完全隨機從頭開始訓練。本文是來自喜馬拉雅FM音視頻工程師馬力的投稿，他手把手式的介紹了Tacotron的使用方法，幫助你快速上手。

發表于 04-10 08:47 ?1.3w次閱讀

matlab的模型變換、模型簡化、模型實現以及模型特性命令

matlab的模型變換、模型簡化、模型實現以及模型特性命令模型變換 C2d 變連續系統為離散系統

發表于 09-22 15:58

從Matlab_Simulink_模型到代碼實現 matlab

發表于 10-04 08:36

使用全卷積網絡模型實現圖像分割

OpenCv-C++-深度神經網絡（DNN）模塊-使用FCN模型實現圖像分割

發表于 05-28 07:33

請問如何實現滑動導航模型SwipeView？

如何實現滑動導航模型SwipeView

發表于 11-23 06:56

如何實現嵌入式CISI模型機系統的設計？

發表于 12-24 07:01

K210是否可以將模型分層實現？

請問各位是否可以將模型分層實現，實現的思路大概如何。是先訓練好模型，分層轉換為kmodel，依次實現各層kmodel，還是導出整體kmod

發表于 09-15 06:17

基于模型的DDS芯片設計與實現

基于模型的DDS芯片設計與實現　0 引言　　1971 年，美國學者J.Tierncy.C.M.Rader 和B. Gold 應用全數字技術，從相位概念出發給出了直接合成波形的

發表于 01-20 11:23 ?1451次閱讀

基于<b class='flag-5'>模型</b>的DDS芯片設計與<b class='flag-5'>實現</b>

基于C++的modbus通訊協議模型實現

基于C++的modbus通訊協議模型實現，很好的資料，快來下載學習吧。

發表于 03-21 17:27 ?55次下載

蘋果推出tvOS應用“iBooks StoryTime”

iBooks StoryTime通過結合大聲朗讀（Read-Aloud）功能及圖形和動畫等，從聽覺和視覺上幫助提高孩子們的閱讀理解能力。另外，與第四代Apple TV相結合后，這款應用為家長和他們的孩子提供了一種獨特的互動閱讀體驗。

發表于 11-11 09:51 ?1320次閱讀

基于模型的SDR開發設計與實現

促使下一代通信無線電的一個新設計方法的產生。該方法基于更高層次抽象描述，采用基于模型的設計思想，其核心為基于與實現無關的模型(IIM)和特定實現的模

發表于 11-22 01:04 ?1868次閱讀

基于模型的設計的IIM 和ISM實現

要求。這種認識促使下一代通信無線電的一個新設計方法的產生。該方法基于更高層次抽象描述，采用基于模型的設計思想，其核心為基于與實現無關的模型 (IIM) 和特定實現的

發表于 12-12 20:58 ?1545次閱讀

整體thread模型的設計與實現

SPDK Thread 模型是SPDK誕生以來十分重要的模塊，它的設計確保了spdk應用的無鎖化編程模型，本文基于spdk最新的release 19.07版本介紹了整體thread模型的設計與

發表于 03-29 14:39 ?2259次閱讀

利用NVIDIA Volta將文本實時生成自然語音

在訓練了 Tacotron 2 和 WaveGlow 模型，或者下載了各自模型的預先訓練的檢查點之后，您可以執行以文本為輸入的推理，并生成一個音頻文件。

發表于 04-07 10:08 ?1464次閱讀

Storytime CMS系統和博客引擎

./oschina_soft/storytime.zip

發表于 06-09 10:47 ?1次下載

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

基于Tacotron實現StoryTime模型

評論

一個基于Tensorflow框架的開源Tacotron實現

matlab的模型變換、模型簡化、模型實現以及模型特性命令

從Matlab_Simulink_模型到代碼實現 matlab

使用全卷積網絡模型實現圖像分割

請問如何實現滑動導航模型SwipeView？

如何實現嵌入式CISI模型機系統的設計？

K210是否可以將模型分層實現？

基于模型的DDS芯片設計與實現

基于C++的modbus通訊協議模型實現

蘋果推出tvOS應用“iBooks StoryTime”

基于模型的SDR開發設計與實現

基于模型的設計的IIM 和ISM實現

整體thread模型的設計與實現

利用NVIDIA Volta將文本實時生成自然語音

Storytime CMS系統和博客引擎

電子發燒友