今天,給大家介紹一個算法。
AI 算法 5 秒鐘,就能克隆你的聲音,你信嗎?
聽聽這段音頻,猜猜看是 AI 合成音,還是真人錄音?
答案是:AI 合成。
這個人的原始聲音在這里:
你給這個 AI 克隆聲音的算法打幾分?
錄制一段音頻,就可以根據輸入的文字,5s 即可自動生成對應的合成音。
突然有個大膽的想法,你說女朋友要是哪天突然不承認自己說過了某句話,我就給她造一份!
兄弟們,我做的對嗎?
MockingBird這個算法是基于比較著名的 Real Time Voice Cloning 實現的。
MockingBird 是最近開源的中文版。
論文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
簡單介紹下:
算法分為三個模塊:encoder模塊、systhesis模塊、vocoder模塊。
encoder模塊將說話人的聲音轉換成人聲的數字編碼(speaker embedding)
synthesis 模塊將文本轉換成梅爾頻譜(mel-spectrogram)
vocoder模塊將梅爾頻譜(mel-spectrogram)轉換成(波形)waveform
具體的算法原理,大家可以先看論文:
https://arxiv.org/pdf/1806.04558.pdf
今天主要聊聊,這個算法怎么玩。
項目地址:https://github.com/babysor/MockingBird
有深度學習基礎的話,這個應該不難。
就是部署環境,分四步:
Anaconda 配置 Pytorch 開發環境
根據項目 requirements.txt 安裝第三方庫依賴
下載權重文件
下載訓練集,這個幾十G,有點大
具體的配置方法,直接看這里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
環境搭建搞定后,就可以運行代碼了。
有兩種模式可以啟動,Web 模式和工具箱模式。
在項目根目錄運行:
python web.py
即可開啟 Web ,打開地址 http://localhost:8080 就能操作了。
這個界面比較簡陋,建議使用工具箱模式。
python demo_toolbox.py -d 《datasets_root》
datasets_root就是下載好的數據集的地址。
責任編輯:haq
-
語音
+關注
關注
3文章
385瀏覽量
38099 -
AI
+關注
關注
87文章
31490瀏覽量
269915
原文標題:危險!我克隆了女朋友的聲音
文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論