色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習在語音增強中的應用

硬件設計技術 ? 來源:21dB聲學人 ? 2023-07-11 09:39 ? 次閱讀

隨著科學技術的發展,語音作為新一代人機交互方式,成為人和智能設備、語音助手交流的重要接口,然而在真實環境中,語音信號不可避免的被各種噪聲所干擾,除了各種環境噪聲,聲波在封閉空間中的衰減和延時反射所引起的混響等都會影響語音的感知質量,研究者將真實場景下影響語音質量的因素總結為三個方面:環境噪聲、房間混響和其他說話人干擾,語音增強的目的就是消除上述三個方面的影響。語音增強是指利用音頻信號處理的技術以及算法提高失真語音信號的整體感知質量或者可懂度。

語音去噪

深度學習在語音降噪中的應用廣泛,根據處理語音的通道數不同,可以分為單通道降噪和多通道降噪,其中單通道語音的去噪由俄亥俄州立大學的汪德亮團隊提出的基于DNN-SVM算法,后來又相繼提出CRNN、DP-SARNN和Transformer等算法,Zhang等人[1]人提出了雙分支神經網絡DBNet同時在時域和頻域上解決語音增強的問題。而深度學習在多通道語音增強中常常結合空間信息或者傳統算法例如波束形成等實現去噪,例如具有代表性算法的基于掩蔽的波束形成技術[2]。利用深度學習進行語音去的算法一般包括非端到端語音降噪方法和端到端語音降噪算法。其中非端到端語音降噪的算法常用的處理方式有基于掩膜的方法和基于特征映射的方法。

wKgaomSssumAdMjCAAKdnojtLxQ359.jpg

基于深度學習非端到端語音去噪方法框圖

wKgaomSssumAdmrLAAEd60Q59jg171.jpg

基于深度學習端到端語音去噪算法框圖

基于掩膜的語音增強

基于時頻掩蔽的語音增強方法將描述純凈語音與噪聲之間相互關系的時頻掩蔽作為學習目標,該方法假設純凈語音信號與噪聲之間有一定的獨立性,理想二值掩蔽(Ideal Binary Mask,IBM)是最初被引入語音增強的時頻掩蔽方法,該掩蔽方法通過判斷某個時頻單元內語音與噪聲主導情況將連續的時頻單元離散化為0或1兩種狀態,IBM公式如下所示:

wKgZomSssumAbW9UAAANXR79q2Q738.jpg

通過IBM的公式可以看出只有0、1兩種取值,可以一定程度提高語音質量,但這種方法對于帶噪語音的處理過于簡單粗暴,會在處理過程中引入較大的噪聲。

基于語音和噪聲獨立假設的情況下,基于比值掩蔽的方法刻畫了時頻單元內純凈語音能量和帶噪語音能量的比值,該類掩蔽方法中常用的有理想比值掩蔽(Ideal Ratio Mask,IRM)。IRM相較于IBM從離散的狀態值變為連續的狀態值,相較之下可以有效的提升語音的質量和可懂度,但是缺點是利用帶噪語音的相位信息對純凈語音進行了重構。

除了上述兩種掩蔽方法,仍然有許多的掩蔽方法,例如基于信號能量比值的理想幅度掩蔽(Ideal Amplitude Mask,IAM),考慮相位誤差的時頻掩蔽方法的相位敏感掩蔽(Phase Sensitive Mask,PSM),廣泛應用的復數域的復數理想比率掩蔽(Complex Ideal Ratio Mask,cIRM)以及最佳比例掩膜(Optimal Ratio Mask,ORM)等等。這些掩蔽根據語音以及噪聲的幅度譜或者功率譜計算獲得,通過網絡計算得到估計掩蔽后,將帶噪語音信號與時頻掩蔽相乘得到純凈語音信號,進而得到干凈語音的時域波形。

基于特征映射的方法

基于特征映射的語音增強方法是通過網絡完成帶噪語音特征和干凈語音特征之間的映射關系,常見的特征映射包括目標幅度譜(TMS)、短時傅里葉變換幅度譜(STFT)等,通過帶噪語音估計純凈語音特征,將得到的譜圖與帶噪語音相位結合,從而得到語音波形。另外聲學特征也可以被用作特征映射深度學習的目標,例如Chen等人[3]探索了低信噪比下已經被用作語音分離和語音增強的一系列特征的表現,包括了Mel域特征中的MFCC和DSCC,線性預測特征中的PLP特征和RASTA-PLP特征,gamma域中的GF特征、GFCC特征和GFMC特征,信號自相關域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征,調制域中的GFB特征和AMS特征等。Wang等人[4]提出一種單聲道和多聲道語音增強的復數頻譜映射方法,利用DNN從帶噪信號中預測純凈語音的實部和虛部,并融合波束形成算法得到在 CHiME-4語音數據集上WER較好的性能提升。

基于端到端的方法

監督語音增強大部分是在時頻域進行的,端到端的語音增強對原始時域波形信號直接進行處理,由于不依賴于頻域表示,避免了語音相位信息的丟失以及重構增強語音時使用帶噪語音相位可能導致的性能下降問題,使得模型流程簡化。Ritwik Giri等人[5]提出了帶有注意力機制的U-Net應用于語音增強,在VCTK數據集上測試多信噪比情況下PESQ、SSNR等評價指標都得到了提升。

語音去混響

混響語音為信號和房間沖激響應(Room Impulse Response,RIR)的卷積,這會使得語音信號在時域和頻域都發生畸變,導致語音可懂度的下降。利用深度學習的混響消除算法包括三類算法,直接預測、間接預測和聯合傳統算法。

wKgZomSssumAHfOVAAK7UeQgJos295.jpg

直接預測的方法為混響語音信號直接映射到純凈語音信號,間接預測的方法例如可以通過預測后期混響信號間接性得到目標語音信號,聯合傳統算法為將DNN與WPE等算法進行結合,通過網絡預測WPE算法中間參數從而去除迭代計算的操作。Han等人[6]在2014年首先提出了基于DNN的語音去混響方法,這種方法在耳蝸圖上使用譜映射,DNN被訓練成從混響語音幀映射到干凈語音幀。Zhao等人[7]通過LSTM預測語音信號晚期混響間接得到目標語音信號,Kinoshita K[8]通過LSTM網絡預測WPE算法中的中間參數進而實現混響消除。

語音增強作為語音識別中的一項核心關鍵技術,廣泛應用在各種場景之中,國內外研究人員針對語音增強提出了許多算法,深度學習的廣泛應用也為來研究領域帶來了新的突破,但是語音增強領域仍然有許多問題,例如泛化性能、相位失真問題和低信噪比下的應用效果不理想,未來的語音增強仍然充滿挑戰。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人機交互
    +關注

    關注

    12

    文章

    1217

    瀏覽量

    55469
  • 噪聲
    +關注

    關注

    13

    文章

    1125

    瀏覽量

    47487
  • SVM
    SVM
    +關注

    關注

    0

    文章

    154

    瀏覽量

    32513
  • 語音增強
    +關注

    關注

    0

    文章

    12

    瀏覽量

    8768
  • 深度學習
    +關注

    關注

    73

    文章

    5512

    瀏覽量

    121404

原文標題:深度學習在語音增強中的應用

文章出處:【微信號:硬件設計技術,微信公眾號:硬件設計技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    深度學習汽車的應用

    神經系統,因此支持人工智能的概念。圖 2:簡易反向傳播示例盡管深度學習具有效力,但其實際應用也遇到了一些挑戰。對于容易受到系統限制因素(如總體成本、功耗和擴展計算能力)影響的嵌入式
    發表于 03-13 06:45

    深度學習的圖片如何增強

    深度學習的圖片增強
    發表于 05-28 07:03

    深度學習預測和健康管理的應用

    深度學習預測和健康管理的應用綜述摘要深度學習對預測和健康管理(PHM)引起了濃厚的興趣,因為
    發表于 07-12 06:46

    什么是深度學習?使用FPGA進行深度學習的好處?

    ) 來解決更復雜的問題,深度神經網絡是一種將這些問題多層連接起來的更深層網絡。這稱為深度學習。目前,深度學習被用于現實世界
    發表于 02-17 16:56

    基于分層編碼的深度增強學習對話生成

    回答的問題。該方法結合了分層編碼和增強學習技術,利用分層編碼來對多輪對話進行建模,標準seq2seq的基礎上新增了中間層來加強對歷史對話語句的記憶,而后采用了語言模型來構建獎勵函數,進而用
    發表于 11-25 11:53 ?1次下載

    蘋果Siri深度學習語音合成技術揭秘

    Siri 是一個使用語音合成技術與人類進行交流的個人助手。從 iOS 10 開始,蘋果已經 Siri 的語音中用到了深度學習,iOS 1
    發表于 05-26 07:20 ?3431次閱讀
    蘋果Siri<b class='flag-5'>深度</b><b class='flag-5'>學習語音</b>合成技術揭秘

    深度學習軌跡數據挖掘的應用研究綜述

    深度學習軌跡數據挖掘的應用研究綜述 來源:《?計算機科學與應用》?,作者 李旭娟 等 摘要:? 在過去十年,深度
    發表于 03-08 17:24 ?2039次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>在</b>軌跡數據挖掘<b class='flag-5'>中</b>的應用研究綜述

    AI汽車的應用:實用深度學習

    AI汽車的應用:實用深度學習
    發表于 11-01 08:26 ?0次下載
    AI<b class='flag-5'>在</b>汽車<b class='flag-5'>中</b>的應用:實用<b class='flag-5'>深度</b><b class='flag-5'>學習</b>

    基于深度學習語音合成技術的進展與未來趨勢

    近年來,深度學習技術語音合成領域取得了顯著的進展?;?b class='flag-5'>深度學習
    的頭像 發表于 09-16 14:48 ?1142次閱讀

    深度學習語音識別的應用及挑戰

    一、引言 隨著深度學習技術的快速發展,其語音識別領域的應用也日益廣泛。深度學習技術可以有效地提
    的頭像 發表于 10-10 18:14 ?941次閱讀

    基于深度學習的情感語音識別模型優化策略

    情感語音識別技術是一種將人類語音轉化為情感信息的技術,其應用范圍涵蓋了人機交互、智能客服、心理健康監測等多個領域。隨著人工智能技術的不斷發展,深度學習
    的頭像 發表于 11-09 16:34 ?766次閱讀

    GPU深度學習的應用與優勢

    人工智能的飛速發展,深度學習作為其重要分支,正在推動著諸多領域的創新。在這個過程,GPU扮演著不可或缺的角色。就像超級英雄電影的主角一樣,GPU
    的頭像 發表于 12-06 08:27 ?1455次閱讀
    GPU<b class='flag-5'>在</b><b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>中</b>的應用與優勢

    深度學習視覺檢測的應用

    能力,還使得機器能夠模仿人類的某些智能行為,如識別文字、圖像和聲音等。深度學習的引入,極大地推動了人工智能技術的發展,特別是圖像識別、自然語言處理、語音識別等領域取得了顯著成果。
    的頭像 發表于 07-08 10:27 ?834次閱讀

    深度學習的無監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來多個領域取得了顯著的成果,特別是圖像識別、語音
    的頭像 發表于 07-09 10:50 ?877次閱讀

    NPU深度學習的應用

    設計的硬件加速器,它在深度學習的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優化的處理器,它與傳統的CPU和G
    的頭像 發表于 11-14 15:17 ?785次閱讀
    主站蜘蛛池模板: 久久爱狠狠综合网| 欧洲人交xxx69| 桃隐社区最新最快地址| 久久黄色免费网站| 亚洲精品久久无码AV片WWW| 国产精品久久自在自2021| 婷婷开心激情综合五月天| 国产69精品久久久久乱码免费 | 欧美黑人巨大xxxxx| 99在线观看免费视频| 泡妞高手在都市完整版视频免费| 97在线视频网站| 欧美一区二区三区男同| 东北足疗店妓女在线观看| 手机在线亚洲日韩国产| 最近免费中文字幕MV免费高清| 久久极品视频| 97在线视频免费播放| 日本一二三区视频在线| 国产成人一区二区三区在线观看| 边吃胸边膜下床震免费版视频| 狼与美女谐音歌词| 99爱免费视频| 色青青草原桃花久久综合| 国产欧美日韩精品a在线观看高清| 亚洲精品乱码电影在线观看 | 国产精品婷婷久青青原| 亚洲2017久无码| 老色69久久九九精品高潮| A级超碰视频在线观看| 熟妇的味道HD中文字幕 | 最新国产三级在线不卡视频| 欧美精品AV精品一区视频| 国产成人AV永久免费观看| 亚洲欧美中文在线一区| 麻豆国产成人AV在线| 朝鲜美女bbwbbw撒尿| 亚洲精品久久久无码一区二区| 久久国产精品永久网站| WWW色视频片内射| 亚洲日本激情|