色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

訊飛開放平臺 ? 來源:djl ? 2019-10-08 11:20 ? 次閱讀

作為國內智能語音與人工智能產業領導者,科大訊飛在北京國家會議中心召開了以“AI復始,萬物更新”為主題的2015年年度發布會。在發布會上,科大訊飛介紹了訊飛超腦計劃的最新進展,并發布了數款讓人印象深刻的創新型產品。特別值得一提的是,在發布會現場,科大訊飛全球首次將演講人的演講,同步轉寫成文字在大屏幕顯示,敢于接受現場數千參會者和數千萬觀看視頻直播觀眾的檢驗,系統的轉寫效果之好讓大家直呼驚艷。此次發布會轉寫系統就是依托于訊飛全球領先的中文語音識別系統。今天,我們就為大家從技術上揭秘科大訊飛的新一代語音識別系統。


劉慶峰董事長現場演講內容同步轉寫成文字顯示在屏幕上

眾所周知,自2011年微軟研究院首次利用深度神經網絡(Deep Neural Network, DNN)在大規模語音識別任務上獲得顯著效果提升以來,DNN在語音識別領域受到越來越多的關注,目前已經成為主流語音識別系統的標配。然而,更深入的研究成果表明,DNN結構雖然具有很強的分類能力,但是其針對上下文時序信息的捕捉能力是較弱的,因此并不適合處理具有長時相關性的時序信號。而語音是一種各幀之間具有很強相關性的復雜時變信號,這種相關性主要體現在說話時的協同發音現象上,往往前后好幾個字對我們正要說的字都有影響,也就是語音的各幀之間具有長時相關性。

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖1:DNN和RNN示意圖

相比前饋型神經網絡DNN,循環神經網絡(Recurrent Neural Network, RNN)在隱層上增加了一個反饋連接,也就是說,RNN隱層當前時刻的輸入有一部分是前一時刻的隱層輸出,這使得RNN可以通過循環反饋連接看到前面所有時刻的信息,這賦予了RNN記憶功能,如圖1所示。這些特點使得RNN非常適合用于對時序信號的建模,在語音識別領域,RNN是一個近年來替換DNN的新的深度學習框架,而長短時記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統簡單RNN梯度消失等問題,使得RNN框架可以在語音識別領域實用化并獲得了超越DNN的效果,目前已經在業界一些比較先進的語音系統中使用。

除此之外,研究人員還在RNN的基礎上做了進一步改進工作,圖2是當前語音識別中的主流RNN聲學模型框架,主要還包含兩部分:深層雙向LSTM RNN和CTC(Connectionist Temporal Classification)輸出層。其中雙向RNN對當前語音幀進行判斷時,不僅可以利用歷史的語音信息,還可以利用未來的語音信息,可以進行更加準確的決策;CTC使得訓練過程無需幀級別的標注,實現有效的“端對端”訓練。

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖2:基于LSTM RNN的主流聲學模型框架

目前,國際國內已經有不少學術或工業機構掌握了RNN模型,并在上述某個或多個技術點進行研究。然而,上述各個技術點單獨研究時一般可以獲得較好的結果,但是如果想將這些技術點融合在一起的時候,則會碰到一些問題。例如,多個技術結合在一起的提升幅度會比各個技術點幅度的疊加要小。又例如,傳統的雙向RNN方案,理論上需要看到語音的結束(即所有的未來信息),才能成功的應用未來信息來獲得提升,因此只適合處理離線任務,而對于要求即時響應的在線任務(例如語音輸入法)則往往會帶來3-5s的硬延遲,這對于在線任務是不可接受的。再者,RNN對上下文相關性的擬合較強,相對于DNN更容易陷入過擬合的問題,容易因為訓練數據的局部不魯棒現象而帶來額外的異常識別錯誤。最后,由于RNN具有比DNN更加復雜的結構,給海量數據下的RNN模型訓練帶來了更大的挑戰。

鑒于上述問題,科大訊飛發明了一種名為前饋型序列記憶網絡FSMN(Feed-forward Sequential Memory Network)的新框架。在這個框架中,可以把上述幾點很好的融合,同時各個技術點對效果的提升可以獲得疊加。值得一提的是,我們在這個系統中創造性提出的FSMN結構,采用非循環的前饋結構,在只需要180ms延遲下,就達到了和雙向LSTM RNN相當的效果。下面讓我們來具體看下它的構成。

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖3:FSMN結構示意圖

關于科大訊飛對新一代語音識別系統技術原理的分析和介紹

圖4:FSMN中隱層記憶塊的時序展開示意圖(左右各看一幀)

圖3即為FSMN的結構示意圖,相比傳統的DNN,我們在隱層旁增加了一個稱為“記憶塊”的模塊,用于存儲對判斷當前語音幀有用的歷史信息和未來信息。圖4畫出了雙向FSMN中記憶塊左右各記憶一幀語音信息(在實際任務中,可根據任務需要,人工調整所需記憶的歷史和未來信息長度)的時序展開結構。

從圖中我們可以看出,不同于傳統的基于循環反饋的RNN,FSMN記憶塊的記憶功能是使用前饋結構實現的。這種前饋結構有兩大好處:首先,雙向FSMN對未來信息進行記憶時,沒有傳統雙向RNN必須等待語音輸入結束才能對當前語音幀進行判斷的限制,它只需要等待有限長度的未來語音幀即可,正如前文所說的,我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果;其次,如前所述,傳統的簡單RNN因為訓練過程中的梯度是按時間逐次往前傳播的,因此會出現指數衰減的梯度消失現象,這導致理論上具有無限長記憶的RNN實際上能記住的信息很有限,然而FSMN這種基于前饋時序展開結構的記憶網絡,在訓練過程中梯度沿著圖4中記憶塊與隱層的連接權重往回傳給各個時刻即可,這些連接權重決定了不同時刻輸入對判斷當前語音幀的影響,而且這種梯度傳播在任何時刻的衰減都是常數的,也是可訓練的,因此FSMN用一種更為簡單的方式解決了RNN中的梯度消失問題,使得其具有類似LSTM的長時記憶能力。

另外,在模型訓練效率和穩定性方面,由于FSMN完全基于前饋神經網絡,所以不存在RNN訓練中因mini-batch中句子長短不一需要補零而導致浪費運算的情況,前饋結構也使得它的并行度更高,可最大化利用GPU計算能力。從最終訓練收斂的雙向FSMN模型記憶塊中各時刻的加權系數分布我們觀察到,權重值基本上在當前時刻最大,往左右兩邊逐漸衰減,這也符合預期。進一步,FSMN可和CTC準則結合,實現語音識別中的“端到端”建模。

最后,和其他多個技術點結合后,訊飛基于FSMN的語音識別框架可獲得相比業界最好的語音識別系統40%的性能提升,同時結合我們的多GPU并行加速技術,訓練效率可達到一萬小時訓練數據一天可訓練收斂。后續基于FSMN框架,我們還將展開更多相關的研究工作,例如:DNN和記憶塊更深層次的組合方式,增加記憶塊部分復雜度強化記憶功能,FSMN結構和CNN等其他結構的更深度融合等。在這些核心技術持續進步的基礎上,科大訊飛的語音識別系統將不斷挑戰新的高峰!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1761

    瀏覽量

    113304
  • 深度學習
    +關注

    關注

    73

    文章

    5527

    瀏覽量

    121893
收藏 人收藏

    評論

    相關推薦

    科大Air 2電紙書和掌閱Ocean4 Plus區別

    體驗非常沉浸,尤其是在閱讀或書寫時,感覺就像在紙上操作樣自然。內置的星火大模型更是讓它如虎添翼,支持語音轉文字、會議紀要自動整理、AI成稿等功能,簡直是職場人士的福音。尤其是它的
    發表于 03-03 14:01

    科大發布星火深度推理模型X1

    今天,科大正式發布星火深度推理模型X1,星火4.0 Turbo底座全面升級,首發星火語音同傳大模型。
    的頭像 發表于 01-15 15:54 ?370次閱讀

    科大即將發布星火深度推理模型X1

    ,標志著科大飛在AI技術領域的又次重大突破。星火深度推理模型X1將為
    的頭像 發表于 01-08 10:30 ?453次閱讀

    科大發布星火4.0 Turbo大模型及星火多語言大模型

    近日,科大正式推出了其最新研發成果——星火4.0 Turbo大模型。這發布不僅標志著
    的頭像 發表于 10-24 13:58 ?576次閱讀

    科大發布星火4.0 Turbo:七大能力超GPT-4 Turbo

    10月24日,在科大全球1024開發者節上,科大董事長劉慶峰正式發布了
    的頭像 發表于 10-24 11:39 ?680次閱讀

    科大AI總部園區正式啟用

    近日,安徽省科技創新領域迎來又重大里程碑,科大AI總部園區(小鎮)正式宣告啟用,標志著
    的頭像 發表于 09-03 16:06 ?789次閱讀

    科大發布星火極速超擬人交互,重塑智能對話新體驗

    8月19日,科大震撼宣布了關于其明星產品——星火語音大模型的重大革新,即將推出的“星火極
    的頭像 發表于 08-20 16:46 ?457次閱讀

    科大發布智能辦公本Air 2

    近日,科大隆重舉辦了智能辦公本新品發布會,正式推出了集前沿科技與高效辦公于體的智能辦公
    的頭像 發表于 08-08 10:43 ?755次閱讀

    科大AI學習機暑期重磅升級

    等獎。得益于這些大獎AI技術的支撐,科大AI學習機自2019年問世以來,即持續引領行業發展,開創了個性化精準學這革命性學習方式。 ?
    的頭像 發表于 07-08 09:38 ?864次閱讀

    科大發布星火大模型V4.0

    在科技創新的浪潮中,科大再度引領潮流,于北京隆重發布了星火大模型V4.0及其在多領域的人工智能應用。此次更新不僅標志著
    的頭像 發表于 07-01 10:33 ?1024次閱讀

    車載語音識別系統語音數據采集標注案例

    車載語音識別系統是指利用機器學習算法實現的種自然語言處理技術,載語音識別系統通過辨別聲音的語調
    的頭像 發表于 06-19 15:52 ?456次閱讀
    車載<b class='flag-5'>語音</b><b class='flag-5'>識別系統</b><b class='flag-5'>語音</b>數據采集標注案例

    車載語音識別系統語音數據采集標注案例

    車載語音識別系統是指利用機器學習算法實現的種自然語言處理技術,載語音識別系統通過辨別聲音的語調
    的頭像 發表于 06-19 15:49 ?649次閱讀

    科大星火大模型新添功能,語音臺歷即將面世

     4月26日,科大宣布星火大模型V3.5春季更新,新增功能包括:支持長文本、長圖文、長語音
    的頭像 發表于 04-28 11:30 ?624次閱讀

    科大創新推出長文本、長圖文、長語音大模型,解決落地難題

    近期,科大推出了首個支持長文本、長圖及語音大數據處理的大模型,該系統融合了多元化數據源,包括海量文字、圖片以及會議音頻等,能為各行業場景
    的頭像 發表于 04-28 09:32 ?455次閱讀

    科大華中總部已封頂 年內交付使用

    科大華中總部已封頂 年內交付使用 科大華中總部位于武漢經開區車谷資本島,投資額50億;計
    的頭像 發表于 04-16 14:49 ?1793次閱讀
    主站蜘蛛池模板: 性插图动态图无遮挡 | 性美国人xxxxx18 | 亚洲福利网站 | 国色精品VA在线观看免费视频 | 亚洲精品AV一二三区无码 | 日本亚欧热亚洲乱色视频 | 兰桂坊人成社区亚洲精品 | 两性午夜色视频免费网站 | 99精品在线看 | 18国产精品白浆在线观看免费 | 日韩精品一区二区亚洲AV观看 | 电影内射视频免费观看 | 亚洲精品国偷拍自产在线观看蜜臀 | 亚洲综合AV在线在线播放 | 免费三级网址 | 92国产精品午夜免费福利视频 | 无码国产成人777爽死 | 亚洲中文在线精品国产 | 99久在线国内在线播放免费观看 | 免费夜色污私人影院网站 | 欧美一夜爽爽爽爽爽爽 | 国产乱人偷精品视频A人人澡 | 男女午夜性爽快免费视频不卡 | 国产亚洲999精品AA片在线爽 | 浪小辉军警服务员VIDEOS | 天美传媒果冻传媒入口视频 | 男女交性视频无遮挡全过程 | 国产精品99久久久久久AV下载 | 微福利92合集 | 在线日本v二区不卡 | 久久亚洲AV成人无码国产漫画 | 甜性涩爱bt下载 | 美女张开腿露出尿口扒开来摸动漫 | 国产色婷婷精品人妻蜜桃成熟 | 日本最新免费区中文 | 视频一区二区中文字幕 | 国偷自产视频一区二区99 | 伊人精品影院 | 色狠狠色狠狠综合天天 | 刺激性视频黄页 | 久久国语露脸精品国产 |