色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

來自語障人士的語音數據集合

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-12 17:09 ? 次閱讀

語言障礙癥狀影響著數百萬人的生活,其產生原因很多,包括神經或遺傳疾病、身體缺陷、腦損傷或聽力喪失等,而由此導致的癥狀也各不相同,如口吃、構音障礙 (Dysarthria)、失用癥 (Apraxia) 等,這些癥狀對患者的自我表達、社會生活參與,以及使用語音技術,都會產生不利影響。

自動語音識別 (ASR, Automatic Speech Recognition) 技術可以通過提升設備的聽寫和家居自動化能力以及溝通能力,來幫助語言障礙人士克服上述問題。然而,盡管隨著深度學習系統計算能力的提升,以及有大型訓練數據集可供使用,ASR 系統在準確率方面有所提升,但是對于許多具有語言障礙的人而言,系統的性能仍有所欠缺,導致許多本應受益良多的患者無法有效利用這項技術。

2019 年,我們推出了 Euphonia 項目,探討如何通過個性化的識別語言障礙 ASR 模型,實現在典型語音上與通用 ASR 模型相同水平的準確率。今天我們為大家分享兩項在 Interspeech 2021 上發布的研究成果,這兩項研究目的在于讓更多用戶群體可以利用個性化 ASR 模型。在“無序語音數據集合:從 Euphonia 項目 100 萬條語音中總結的經驗 (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我們介紹了一個涵蓋范圍廣泛的無序語音數據集合,其中包含的語音數據超過 100 萬條。在“自動識別無序語音:在短語方面個性化模型較人類表現更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我們討論了在基于該語料庫生成個性化 ASR 模型上所開展的工作。與利用典型語音訓練的開箱即用的語音模型相比,這種方法可以產生準確率更高的模型,在特定的語境中,字錯誤率 (WER, Word error rate) 可降低高達 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

無序語音數據集合:從 Euphonia 項目 100 萬條語音中總結的經驗

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自動識別無序語音:在短語方面個性化模型較人類表現更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

來自語障人士的語音數據集合

自 2019 年起,不少語障人士為支持 Euphonia 項目的研究工作提供了語音樣本。他們的嚴重程度不同,癥狀也不一樣。這項工作將 Euphonia 項目的語料庫擴展至超過 100 萬條語音,包括了來自 1330 名說話者的 1400 多小時語音記錄(截至 2021 年 8 月)。

基于超過 300 條錄制的語音數據,繪制出的所有說話者的語言障礙嚴重程度和所患病癥分布圖。在病癥方面,僅顯示患病人數超過 5 人的病癥,否則統一記入“其他”以滿足 k 匿名性 (k-anonymity)

ALS 代表肌萎縮性脊髓側索硬化癥;DS 代表唐氏綜合癥;PD 代表帕金森病;CP 代表腦癱;HI 代表聽力障礙;MD 代表肌肉萎縮癥;MS 代表多發性硬化癥

Euphonia 項目的研究工作

https://sites.research.google/euphonia/about/

為簡化數據收集流程,參與者在筆記本電腦或者手機等個人硬件上(使用或者不使用頭戴式耳機)通過家用錄音系統收集語音,而不是在類似實驗室這樣的理想環境中收集錄音棚品質的語音。

為降低轉錄成本,同時保持較高的轉錄一致性,我們優先采取了按照文本朗讀的方式。參與者根據瀏覽器端錄音工具上顯示的提示語進行朗讀。這些提示語涵蓋家居自動化(“打開電視。”)、與看護者對話(“我餓了。”)以及非正式對話(“你好嗎?你今天過得愉快嗎?”)等語境。大部分參與者會朗讀 1500 條提示語,其中包含 1100 個只出現一次的短語以及 100 個重復出現 4 次的短語。

語音專家在傾聽每位說話者部分語音的同時,進行了全面的聽覺感知和語音評估,以便根據多種為說話者分級的元數據,來判定語言障礙類型(例如口吃、構音障礙、失用癥等),對如鼻音過重(Hypernasal speech)、發音失準和言語聲律障礙(Dysprosody)等 24 種異常語音特征進行評定,同時對技術問題(例如信號丟失、分割問題)和聲學問題(例如環境噪音、次級揚聲器串擾)進行錄音質量評估。

個性化 ASR 模型

這個擴展的語音障礙數據集也是我們生成無序語音個性化 ASR 模型新方法的基礎。每個定制模型都使用標準的端對端 RNN-傳感器 (RNN-T) ASR 模型,該模型僅對目標說話者的數據進行微調。

RNN-傳感器架構。在示例中,編碼器網絡由 8 層組成,而預測器網絡由 2 層單向 LSTM (Long short-term memory) 單元組成

為此,我們重點調整了編碼器網絡,也就是模型中處理說話者特定聲學數據的部分,因為語音障礙是我們語料庫中最常見的現象。我們發現,只更新 8 個編碼器層中最底層的 5 個,而凍結最上面的 3 個編碼器層(以及連接層和解碼器層),可以得到最好的結果,并能夠有效避免過度擬合。為了讓這些模型在處理背景噪聲和其他聲學效應方面更具魯棒性,我們采用了專門針對無序語音為主要特征進行調整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

結果

我們訓練了約 430 名說話者的個性化 ASR 模型,他們每人至少錄制了 300 條語音。我們把其中 10% 的語音作為測試集(訓練和測試間沒有短語重疊),在此基礎上,計算了個性化模型以及未調適的基礎模型的 WER。

總的來說,無論是何種嚴重程度還是病癥,我們提供的個性化方法都取得了顯著效果。即便是存在嚴重語言障礙的語音,家居自動化語境短語的 WER 中位數從 89% 左右降到了 13%。在如與看護者對話等其他語境中,準確率也有顯著提高。

在未調適與個性化 ASR 模型中使用居家自動化短語的 WER

為了解個性化模型何時不適用,我們對以下幾個子組進行了分析:

HighWER 與 LowWER:將說話者按照具有基于 WER 分布的第 1 和第 5 個五分位數的高和低劃分個性化模型。

SurpHighWER:具有超高 WER 的說話者(在 HighWER 組中典型或具有輕度語言障礙的參與者)。

不同的病癥以及語言障礙表現形式對 ASR 產生的影響是不一致的。根據 HighWER 組中語言障礙類型的分布表明,由于腦癱(Cerebral palsy)引起的構音障礙特別難以建模。不出意外,該組中語言障礙嚴重程度的中位數也更高。

為了識別影響 ASR 準確率的特定說話者以及技術因素,我們檢查了 ASR 表現較差 (HighWER) 和優秀 (LowWER) 的參與者之間元數據的差異 (Cohen‘s D)。和預期一樣,LowWER 組中整體語言受損程度顯著低于HighWER組 (p 《 0.01)。HighWER 組中最突出的非典型語音特征是清晰度以及受損程度,同時包含其他較為突出的語音特征,如異常的韻律(Prosody )、發音及發聲(Phonation)。眾所周知,這些語音特征也會降低語音的整體清晰度。

與 LowWER 組 (p 《 0.01) 相比,SurpHighWER 組中的訓練語音更少,且 SNR 更低,進而導致較大(負)的效應量,而其他因素的效應量則較小(快速性除外)。相比之下,HighWER 組在所有因素中都表現出了較大差異。

語音障礙和技術元數據效應量對比結果:HighWER 組與 LowWER 組對比;SurpHighWER 組和 LowWER 組對比。正值結果表明 HighWER 組的組值大于 LowWER 組的組值

之后,我們將個性化 ASR 模型和人類聽眾進行了比較。三位語音專家分別為每位說話者轉錄了 30 條語音。我們發現,與人類聽眾的 WER 相比,個性化 ASR 模型的 WER 平均而言更低,并且隨語言受損嚴重程度的增加而表現的更好。

個性化 ASR 模型 WER 與人類聽眾 WER 之間的增量。負值表明個性化 ASR 模型的表現優于人類(專家)聽眾

結論

Euphonia 語料庫擁有超過 100 萬條語音,是最大、最多樣的無序語音語料庫之一(就無序類型與受損程度而言),這一語料庫大大提升了非典型語音類型中的 ASR 準確率。我們的研究結果證明,個性化 ASR 模型在識別各種語言障礙以及受損程度方面十分有效,而且具備了讓更多用戶使用 ASR 的潛力。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31491

    瀏覽量

    270009
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112843

原文標題:個性化語音識別模型,幫助語言障礙人士正常交流

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    標貝數據標注案例分享:車載語音系統數據標注

    的作用。一般來說,車載語音識別系統主要分為前端和后端兩個部分,本文將針對前端語音信號數據采集標注進行實例講解。
    的頭像 發表于 12-24 14:24 ?200次閱讀
    標貝<b class='flag-5'>數據</b>標注案例分享:車載<b class='flag-5'>語音</b>系統<b class='flag-5'>數據</b>標注

    Java集合API的改進介紹

    簡介 本文我們將探討不同 jdk 版本中各類的起源,以及新引入的類和接口背后的目的。我們將分析之前版本存在的問題,以及為何需要引入新的類或接口。此外,我們還將介紹集合類和接口中的新特性。文章將逐一
    的頭像 發表于 11-22 11:12 ?248次閱讀
    Java<b class='flag-5'>集合</b>API的改進介紹

    助盲環境感知裝置設計方案

    今天為大家帶來的是來自創作者X同學的作品:助盲環境感知裝置. 這個裝置主要利用Grove Vision AI V2-Camera module識別環境中的物體,并利用XIAO ESP32S3和樹莓派進行語音輸出,結合了物體檢測和文本轉
    的頭像 發表于 11-05 11:42 ?284次閱讀
    助盲環境感知裝置設計方案

    請問VOLIB語音庫不能用來處理實時語音嗎?

    我下載了TI的VOLIB語音庫,移植了里面的VEU語音增強程序,說明文檔說這個程序里面帶的有降噪功能,數據手冊也是看的云里霧里的,感覺VOLIB是用來處理網絡中的語音
    發表于 10-25 08:24

    九芯電子革新健康檢測!語音播報血壓計ic芯片解決方案

    血壓計,可測量血壓并將讀數顯示在屏幕上。為了提高老年人和視人士的可用性,現代電子語音血壓計已經開發出來,可提供當前血壓讀數的聽覺反饋。這是通過集成語音芯片來實現的,該芯片將測量結果發
    的頭像 發表于 09-22 08:00 ?259次閱讀
    九芯電子革新健康檢測!<b class='flag-5'>語音</b>播報血壓計ic芯片解決方案

    機器人紅外避

    機器人紅外避
    發表于 09-19 12:57 ?0次下載

    輸入文字轉化語音

    一、介紹 基于鴻蒙Next模擬一個輸入用戶文字,轉化成語音播報效果二、場景需求 輔助功能:為視人士提供幫助:將文字內容轉化為語音,使視覺障礙用戶能夠獲取信息。 教育與學習:語言學習:
    發表于 08-28 10:54

    車載語音識別系統語音數據采集標注案例

    的作用。一般來說,車載語音識別系統主要分為前端和后端兩個部分,本文將針對前端語音信號數據采集標注進行實例講解。
    的頭像 發表于 06-19 15:52 ?400次閱讀
    車載<b class='flag-5'>語音</b>識別系統<b class='flag-5'>語音</b><b class='flag-5'>數據</b>采集標注案例

    車載語音識別系統語音數據采集標注案例

    的作用。一般來說,車載語音識別系統主要分為前端和后端兩個部分,本文將針對前端語音信號數據采集標注進行實例講解。
    的頭像 發表于 06-19 15:49 ?557次閱讀

    語音控制模塊_雷龍發展

      1,串口   uart串口控制模式,即異步傳送收發器,通過其完成語音控制。 []()   圖中,GND表示單片機系統電源的參考地,TXD是串行發送引腳,RXD是串行接收引腳。發送uart將來自
    發表于 06-14 17:18

    AGV小車使用避雷達

    AGV(自動導引車)小車使用避雷達是為了確保其在運行過程中的安全性和穩定性。避雷達,如激光雷達或超聲波雷達,能夠實時檢測并避免與障礙物發生碰撞。 AGV小車避雷達的安裝和使用通常涉及以下
    的頭像 發表于 05-20 10:48 ?681次閱讀

    創客打造智能眼鏡,助聽人士理解手語

    據悉,知名創客Nekhil近期將樹莓派進行深度改裝,成功研發出一款可用于解讀手語的智能眼鏡,以解決聽人士的溝通問題。
    的頭像 發表于 04-23 15:32 ?562次閱讀

    車內語音識別數據在智能駕駛中的價值與應用

    車內語音識別數據在智能駕駛中的價值與應用 一、引言 隨著智能駕駛技術的不斷發展,車內語音識別數據在智能駕駛中的應用越來越廣泛。車內語音識別技
    的頭像 發表于 02-19 11:47 ?645次閱讀

    語音數據集在智能駕駛中的關鍵作用與應用

    一、引言 隨著智能駕駛技術的快速發展,語音識別技術在其中扮演著越來越重要的角色。而語音數據集作為語音識別技術的基石,其質量和規模對整個系統的性能起著至關重要的作用。本文將深入探討
    的頭像 發表于 01-31 16:22 ?535次閱讀

    語音數據集:智能駕駛中車內語音識別技術的基石

    一、引言 在智能駕駛中,車內語音識別技術發揮著越來越重要的作用。語音數據集作為這一技術的基石,其質量和規模對語音識別的性能有著至關重要的影響。本文將深入探討
    的頭像 發表于 01-31 16:07 ?584次閱讀
    主站蜘蛛池模板: 97免费在线视频 | 四虎国产精品高清在线观看 | 久久草这在线观看免费 | 啪啪激情婷婷久久婷婷色五月 | 亚洲精品无码久久久久A片空 | 亚洲乱码AV久久久久久久 | 无码人妻丰满熟妇啪啪网不卡 | 国产午夜小视频 | 国产99RE在线观看69热 | 国产高清视频青青青在线 | 国产精品日韩欧美一区二区三区 | 99久久精品久久久 | 粗好大用力好深快点漫画 | 日本内射精品一区二区视频 | 在线高清视频不卡无码 | 青青草原免费在线 | 暖暖的高清视频在线观看免费中文 | 亚洲精品国产字幕久久vr | 在线看片av以及毛片 | 十八禁久久成人一区二区 | 色戒在线完整观看在线播放版 | 亚洲一区二区三区乱码在线欧洲 | 达达兔欧美午夜国产亚洲 | 欧美午夜精品A片一区二区HD | 97国产蝌蚪视频在线观看 | 国产精品日本不卡一区二区 | 久久99久久成人免费播放 | 国产不卡一卡2卡三卡4卡网站 | 欧美高清视频www夜色资源网 | 国产a视频视卡在线 | 毛片在线网址 | 99精品在线观看 | 少妇一夜未归暴露妓女身份 | 6 10young俄罗斯 | 久久精品免视看国产 | 暖暖 免费 高清 日本视频5 | 99久久99久久免费精品蜜桃 | 国产午夜免费不卡精品理论片 | 亚洲日本欧美日韩高观看 | 99久久精品免费看国产一区二区 | 99精品小视频 |