色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

準確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2024-12-17 10:21 ? 次閱讀

GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮,目前諸多工作開始研究如何利用 LLM 來實現端到端的語音到語音(Speech-to-Speech)對話能力,但是目前大部分開源方案存在以下兩個問題:

LLM 災難性遺忘:由于現有方案在語音模態與 LLM 進行對齊時,會或多或少對 LLM 進行微調,但由于要采集到與 LLM 本身訓練的文本數據同等量級的語音數據是非常困難的,所以這一微調過程往往會導致 LLM 出現遺忘現象,造成 LLM 的聰明度下降

語音問答(Spoken Question Answering)任務的評估:多數工作對于語音問答的準確性并沒有進行定量評估,從已有的一些評估結果也可以看出同一模型語音問答和文本問答相比準確性會有明顯的差距

針對上述這些問題,近日騰訊&西工大&南大的研究人員提出了一種低延遲的端到端語音雙工對話模型 Freeze-Omni(VITA 大模型系列第二個工作),其可以在完全凍結 LLM 的情況下,為 LLM 接入語音輸入和輸出,使其能夠支持端到端的語音對話能力,且通過一系列優化使得其具備低延遲的雙工對話能力,其主要特性如下:

在整個訓練過程中,LLM 的參數被完全凍結,確保大型語言模型的知識能力被完全保留;

訓練過程中所依賴的數據規模較小,消耗的計算資源也較少。Freeze-Omni 僅需要文本-語音配對數據(如 ASR 和 TTS 訓練數據,比較容易獲得)以及僅少量的文本模態的問答數據,語音問答準確性顯著超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型;

Freeze-Omni 可以支持任何具有文本模態的(多模態)大語言模型,能夠保留基底大語言模型的能力,如提示服從和角色扮演等。此外,如果有必要改變大語言模型的領域或者回應方式,只需要用相應的文本數據對大語言模型進行微調即可,不需要采集大量語音的問答和對話數據。

04a1c67c-b61a-11ef-93f3-92fbcf53809c.png

論文標題:

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

論文鏈接:

https://arxiv.org/abs/2411.00774

項目主頁:

https://freeze-omni.github.io/

開源代碼:

https://github.com/VITA-MLLM/Freeze-Omni

三階段訓練策略實現語音輸入輸出能力

Freeze-Omni 的整體結構如圖 1 所示,其包含有語音編碼器(Speech Encoder)和語音解碼器(Speech Decoder)以及基底 LLM 三部分。 在運行過程中,流式的語音輸入通過語音編碼器形成分塊(Chunk)特征,然后通過 Adapter 連接到 LLM,LLM 生成的 Hidden State 和文本 Token 的在分塊分割后,分別以塊的形式送入非自回歸前綴語音解碼器(NAR Prefix Speech Decoder)和非自回歸語音解碼器(NAR Speech Decoder)以進行 Prefill 操作。 最后自回歸語音解碼器(AR Speech Decoder)將會完成 Generate 操作以生成語音 Token,并由 Codec Decoder 將其流式解碼為語音信號輸出。

04b173c4-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖1. Freeze-Omni框架圖 Freeze-Omni 各個模塊的三階段訓練策略如下: 流式語音編碼器的三階段訓練:如圖 2 所示,第一階段(a)會先使用 ASR 數據訓練一個具有 ASR 能力的語音編碼。 第二階段(b)會以 ASR 任務為優化目標,將語音編碼器與 LLM 做模態對齊,這個過程中 LLM 是處于凍結狀態的。 第三階段(c)會使用由 TTS 系統合成的語音輸入-文本回答的多輪 QA 數據進行訓練,這里會使用第二階段訓練好的語音編碼器,但是其參數保持凍結以保留其語音魯棒性,而可訓練的參數只有每個問題前的 Prompt Embedding,用于指導 LLM 從 ASR 任務遷移到 QA 任務中。

04c4933c-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖2. 流式語音編碼器的三階段訓練示意圖 流式語音解碼器的三階段訓練:如圖 3 所示,第一階段(a)會先訓練一個單碼本的語音編解碼模型,使用單碼本的目的主要是為了降低計算復雜度和時延。 第二階段(b)將會訓練 NAR 語音編碼器和 AR 語音編碼器,這里會使用文本-語音的 TTS 數據,其文本會通過基底 LLM 的 Tokenizer 轉化為 Token,再經過基底 LLM 的 Embedding 層轉化為文本特征,這個過程中 Embedding 的參數是凍結的,訓練目標的語音 Token 是由第一階段的語音編碼器提供。 第三階段(c)將會凍結第二階段訓練得到的所有網絡,但同時加入了一個 NAR Prefix 語音編碼器,其用于接受 LLM 輸出的 Hidden State,并將輸出的 kv-cache 作為第二階段模型的初始 kv-cache,該過程使用的數據是文本輸入-語音輸出的 QA 數據,主要目的是為了使得語音編碼器遷移到 LLM 的輸出領域中。

04e17d44-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖3. 流式語音解碼器的三階段訓練示意圖 雙工對話的狀態標簽訓練:如圖 4 所示,為了實現雙工交互,Freeze-Omni 在語音編碼器訓練的第三階段中,會為每個 Chunk 的最后一個語音幀對應的 LLM 輸出 Hidden State 加入一個額外的分類層進行多任務訓練,其目的主要是為了輸出狀態標簽。 當使用 VAD 激活語音流輸入后,狀態標簽 0 表示 LLM 將會繼續接受語音 Chunk 的輸入,狀態標簽 1 表示 LLM 將會停止接收語音,且會打斷用戶并進入 LLM 的 Generate 階段輸出回復,狀態標簽 2 表示 LLM 也會停止接收語音,但不會打斷用戶,相當于對這次語音激活做了拒識。

050cf406-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖4. 全雙工對話的狀態標簽訓練示意圖

模型性能測評

訓練配置:Freeze-Omni 在訓練過程中,使用了開源 Qwen2-7B-Instruct 作為基底模型,語音編碼器在訓練過程中使用了 11 萬小時中文英文混合的 ASR 數據,語音解碼器訓練過程使用了 3000 小時由 TTS 系統合成的文本-語音數據,所提到的 QA 數據是由 6 萬條從 moss-003-sft-data 中抽取的多輪對話經過 TTS 系統合成得到的。 語音輸入理解能力評估:Freeze-Omni 提供了其在常見的英文測試集上的 ASR 性能測試結果,從中可以看出,其 ASR 準確性處于較為領先的水平。

05343ed0-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖5. 語音理解能力評估 語音輸出質量評估:Freeze-Omni 提供了其在 1000 條 LLM 輸出的 Hidden State 與 Text Token 上語音解碼器生成的語音在使用 ASR 模型測試得到的詞錯誤率(CER),從結果中可以看出 NAR Prefix 語音解碼器的引入會有效降低詞錯誤率,提高生成語音的質量。

0555afac-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖6. 語音輸出質量評估 語音問答準確性評估:Freeze-Omni 提供了其在 LlaMA-Questions, Web Questions, 和 Trivia QA 三個集合上的語音問答準確率評估。 從結果中可以看出 Freeze-Omni 的準確率具有絕對的領先水平,超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型,并且其語音模態下的準確率相比其基底模型 Qwen2-7B-Instruct 的文本問答準確率而言,差距明顯相比 Moshi 與其文本基底模型 Helium 的要小,足以證明 Freeze-Omni 的訓練方式可以使得 LLM 在接入語音模態之后,聰明度和知識能力受到的影響最低。

05601294-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖7. 語音問答準確性評估 系統延遲評估:Freeze-Omni 還提供了端到端時延分析(即用戶說完后到 LLM 輸出音頻的時間差),作者將其分為了可統計時延和不可統計時延兩部分,其中可統計時延的總時長平均數僅為 745ms,而作者也提到如果經過測量考慮到網絡延遲和不可統計時延部分,則系統的平均響應時延在 1.2s 左右,在行業內仍為領先水平。

0592eb88-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖8. 系統延遲評估

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3226

    瀏覽量

    48807
  • LLM
    LLM
    +關注

    關注

    0

    文章

    286

    瀏覽量

    327

原文標題:準確性超Moshi和GLM-4-Voice!端到端語音雙工模型Freeze-Omni

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    階躍星辰發布國內首個千億參數語音模型

    近日,階躍星辰在官方公眾號上宣布了一項重大突破——推出Step-1o千億參數語音模型。該模型
    的頭像 發表于 12-17 13:43 ?127次閱讀

    利用OpenVINO部署GLM-Edge系列SLM模型

    近期智譜發布了其最新的GLM-Edge系列SLM模型,GLM-Edge 系列是智譜在面向側真實落地使用的場景下的一次嘗試,由兩種尺寸的大語言對話
    的頭像 發表于 12-09 16:12 ?732次閱讀

    智譜推出四個全新模型 攜英特爾按下AI普及加速鍵

    ,GLM-Edge-4B-chat、GLM-Edge-1.5B-chat為側大語言模型,GLM-Edge-V-5B、
    的頭像 發表于 12-02 17:13 ?196次閱讀
    智譜推出四個全新<b class='flag-5'>端</b>側<b class='flag-5'>模型</b> 攜英特爾按下AI普及加速鍵

    如何提升ASR模型準確性

    提升ASR(Automatic Speech Recognition,自動語音識別)模型準確性語音識別技術領域的核心挑戰之一。以下是一些提升ASR
    的頭像 發表于 11-18 15:14 ?744次閱讀

    連接視覺語言大模型自動駕駛

    自動駕駛在大規模駕駛數據上訓練,展現出很強的決策規劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為
    的頭像 發表于 11-07 15:15 ?224次閱讀
    連接視覺語言大<b class='flag-5'>模型</b>與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛

    如何評估 ChatGPT 輸出內容的準確性

    評估 ChatGPT 輸出內容的準確性是一個復雜的過程,因為它涉及多個因素,包括但不限于數據的質量和多樣、模型的訓練、上下文的理解、以及輸出內容的邏輯一致
    的頭像 發表于 10-25 17:48 ?572次閱讀

    InfiniBand網絡解決LLM訓練瓶頸

    的,這需要大量的計算資源和高速數據傳輸網絡。InfiniBand(IB)網絡作為高性能計算和AI模型訓練的理想選擇,發揮著重要作用。在本文中,我們將深入探討大型語言
    的頭像 發表于 10-23 11:26 ?379次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網絡解決LLM訓練瓶頸

    以太網端口雙工模式是什么意思

    以太網端口雙工模式是指以太網端口在數據傳輸過程中,能夠同時發送和接收數據的能力或方式。雙工模式對于網絡性能和數據傳輸效率具有重要影響。以下是關于以太網端口雙工模式的詳細介紹,包括其定義、分類、配置方式、注意事項以及應用場景等方面
    的頭像 發表于 10-08 10:14 ?757次閱讀

    測試用例怎么寫

    測試方法,旨在驗證整個應用程序從前端后端的流程是否能夠按照預期工作。它涉及多個系統組件和接口的交互,確保業務流程的完整和正確。 二、編寫
    的頭像 發表于 09-20 10:29 ?439次閱讀

    智能硬件接入主流大模型語音交互(附文心一言、豆包、kimi、智譜glm、通義千問示例)

    到output1。● 鏈路2: 可通過web對話頁調用大模型節點,最終將大模型結果輸出到對話頁面上。● 鏈路3: 可通過開發板調用大模型節點,最終將大模型輸出的結果進行
    發表于 08-21 19:13

    電阻的電流和電壓是如何區分的

    電阻,又稱為四測量電阻或凱爾文電阻,是一種特殊的電阻器,主要用于精密測量電路中的電阻值。四電阻的電流和電壓的區分對于測量的
    的頭像 發表于 08-05 10:48 ?1151次閱讀

    循環神經網絡在語音識別中的應用

    , LSTM)和門控循環單元(Gated Recurrent Unit, GRU)等,展現了強大的性能。本文將深入探討循環神經網絡在語音識別中的應用,包括其背景、核心算法原理、具
    的頭像 發表于 07-08 11:09 ?571次閱讀

    小鵬汽車發布模型

    小鵬汽車近日宣布,其成功研發并發布了“國內首個量產上車”的模型,該模型可直接通過傳感器輸入內容來控制車輛,標志著智能駕駛技術的新突破
    的頭像 發表于 05-21 15:09 ?676次閱讀

    理想汽車自動駕駛模型實現

    理想汽車在感知、跟蹤、預測、決策和規劃等方面都進行了模型化,最終實現了模型。這種模型不僅
    發表于 04-12 12:17 ?446次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>實現

    Sparse4D-v3:稀疏感知的性能優化及拓展

    上限,解決更多的corner case,讓系統更加魯棒。因此,在Sparse4D-v3中,我們主要做了兩部分工作,其一是進一步提升模型的檢測性能,另一是將Sparse4D拓展為一個
    的頭像 發表于 01-23 10:20 ?1368次閱讀
    Sparse<b class='flag-5'>4</b>D-v3:稀疏感知的性能優化及<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>拓展
    主站蜘蛛池模板: 亚洲一级特黄| 最美白嫩的极品美女ASSPICS| 69日本xxⅹxxxxx18| 久久久这里有精品999| 5G在线观看免费年龄确认18| 女性私密五月天| jlzzzjizzzjlzzz亚洲| 青青草AV国产精品| 国产精品无码人妻在线| 夜色视频社区| 女人高潮久久久叫人喷水| seyeye高清视频在线| 我的家庭女教师| 玖玖爱在线播放| 动漫美女禁区图| 亚洲中文字幕永久在线全国| 老熟女重囗味GRANNYBBW| 把极品白丝班长啪到腿软| 小萝ar视频网站| 美女被爽cao免费漫画| 高挑人妻无奈张开腿| 伊久久| 日韩亚洲人成在线| 久久re视频精品538在线| QVOD理论| 国产成人刺激视频在线观看| 老牛天天晚上夜噜噜噜| sm主人调教揉花蒂H| 0951影音在线| 男女一边摸一边做羞羞的事情免费 | 秋霞电影网午夜鲁丝片| 8x8x我要打机飞在线观看| 老师扒开尿口男生摸尿口| 秋霞伦理机在线看片| 调教美丽的白丝袜麻麻视频| 一边啪啪的一边呻吟声口述| 色拍拍噜噜噜久久蜜桃| 麻豆国产精品AV色拍综合| 国产ZZJJZZJJ视频全免费| 7m凹凸国产刺激在线视频| 小黄鸭YELLOWDUCK7596|