無(wú)論是《2011太空漫游》中的 HAL 還是《星球大戰(zhàn)》中的 C-3PO,人們長(zhǎng)期以來(lái)一直幻想著能夠與機(jī)器對(duì)話。
從智能手機(jī)助手到智能家居系統(tǒng),再到車載語(yǔ)音控制系統(tǒng),語(yǔ)音識(shí)別技術(shù)如今似乎已成為生活中不可或缺的一部分。但在某些場(chǎng)景,表現(xiàn)得并不如人意。“肌肉”和“雞肉”、“北麓”和“北路”,語(yǔ)言的歧義性、語(yǔ)境的依賴性,以及溝通雙方所需的共同知識(shí)背景,都是當(dāng)前需要克服的難題。
美國(guó)學(xué)者愛(ài)德華·霍爾在1976年的著作《超越文化》中,提出了“高語(yǔ)境文化”與“低語(yǔ)境文化”的概念。高語(yǔ)境文化,被認(rèn)為是一種注重細(xì)節(jié)、強(qiáng)調(diào)推斷和推理、強(qiáng)調(diào)群體認(rèn)同和文化多樣性的文化。中文,是其中典型的代表。因此,在電影《流浪地球》中我們可以看到這樣的場(chǎng)景,MOSS與劉培強(qiáng)的交流中,多次強(qiáng)調(diào)避免使用比喻、反問(wèn)和暗示,以減少理解上的誤差。
不僅是中文,不同語(yǔ)言之間在語(yǔ)音、語(yǔ)法、詞匯上的差異,以及個(gè)體獨(dú)特的口音和發(fā)音習(xí)慣,都為語(yǔ)音識(shí)別技術(shù)帶來(lái)了額外的挑戰(zhàn)。
在語(yǔ)音識(shí)別技術(shù)的應(yīng)用已相當(dāng)成熟、跨文化交流增多的今天,如何進(jìn)一步提高語(yǔ)音識(shí)別的準(zhǔn)確率,改善人機(jī)交互體驗(yàn),為人與人之間交流打破國(guó)界、地域的阻礙?
深耕語(yǔ)音技術(shù)領(lǐng)域25年,在AI技術(shù)飛速躍遷的今天,科大訊飛發(fā)布了語(yǔ)音識(shí)別大模型,將語(yǔ)音識(shí)別的準(zhǔn)確率和多語(yǔ)種識(shí)別的效果,提升到了一個(gè)新的高度。
01無(wú)處不在,語(yǔ)音識(shí)別持續(xù)進(jìn)化
技術(shù)角度來(lái)看,語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科。簡(jiǎn)而言之,它的核心任務(wù)是將輸入的語(yǔ)音信號(hào)轉(zhuǎn)換為與之匹配度最高的文字序列。
1952年,貝爾實(shí)驗(yàn)室研制出世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),揭開了人類使用計(jì)算機(jī)識(shí)別語(yǔ)音的序幕。進(jìn)入90年代,伴隨個(gè)人電腦和互聯(lián)網(wǎng)普及,語(yǔ)音識(shí)別逐漸走出實(shí)驗(yàn)室,走進(jìn)公眾視野。2009年之后,深度神經(jīng)網(wǎng)絡(luò)(DNN)的引入,使得語(yǔ)音識(shí)別的準(zhǔn)確率顯著提升,相關(guān)產(chǎn)品開始大規(guī)模普及,技術(shù)進(jìn)入新的發(fā)展階段,深入到我們?nèi)粘I畹姆椒矫婷妗?/p>
大模型技術(shù)引爆的人工智能新一輪應(yīng)用熱潮,其感知能力、認(rèn)知能力、生成能力正重構(gòu)人機(jī)交互方式,不斷刷新用戶期待,在千行百業(yè)落地應(yīng)用。語(yǔ)音識(shí)別作為最早落地的人工智能技術(shù)之一,也悄然發(fā)生著變革。
經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練、擁有強(qiáng)大自然語(yǔ)言理解能力的大模型,給語(yǔ)音研究帶來(lái)了新的技術(shù)邏輯,創(chuàng)造了語(yǔ)音技術(shù)發(fā)展的全新機(jī)會(huì)。
通過(guò)學(xué)習(xí)更多的語(yǔ)言知識(shí)和上下文信息,大模型能實(shí)現(xiàn)更精準(zhǔn)的語(yǔ)義理解,準(zhǔn)確識(shí)別出語(yǔ)音內(nèi)容;同時(shí),基于更統(tǒng)一的多任務(wù)建模能力,通過(guò)在中文、英文和其他語(yǔ)種的語(yǔ)料上進(jìn)行訓(xùn)練,有助于提升語(yǔ)料稀缺小語(yǔ)種的效果。
科大訊飛作為語(yǔ)音領(lǐng)域的佼佼者,如今正在引領(lǐng)著語(yǔ)音識(shí)別技術(shù)的未來(lái)發(fā)展。
02語(yǔ)音行業(yè)翹楚,首發(fā)星火語(yǔ)音大模型
智能語(yǔ)音是萬(wàn)物互聯(lián)機(jī)器溝通的入口,也是人工智能賦能千行萬(wàn)業(yè)、浸潤(rùn)千家萬(wàn)戶的秘鑰。
25年前創(chuàng)業(yè)之初,科大訊飛的夢(mèng)想和使命就是要實(shí)現(xiàn)人機(jī)信息溝通無(wú)障礙,并始終保持初心,長(zhǎng)期致力于智能語(yǔ)音技術(shù)的源頭創(chuàng)新及產(chǎn)業(yè)化應(yīng)用。
從2010年國(guó)內(nèi)首批開展深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別研究,到全球首個(gè)中文語(yǔ)音識(shí)別深度神經(jīng)網(wǎng)絡(luò)(DNN)上線、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語(yǔ)音識(shí)別全面升級(jí)、全球首創(chuàng)基于全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)的語(yǔ)音識(shí)別,再到近幾年持續(xù)探索無(wú)監(jiān)督預(yù)訓(xùn)練、多模態(tài)在語(yǔ)音識(shí)別上的應(yīng)用,訊飛不斷挑戰(zhàn)語(yǔ)音識(shí)別實(shí)際應(yīng)用中的技術(shù)難題。
2023年,在有“最難語(yǔ)音識(shí)別任務(wù)”之稱的語(yǔ)音領(lǐng)域權(quán)威賽事——國(guó)際多通道語(yǔ)音分離和識(shí)別大賽CHiME中,訊飛在大牛如云的參賽隊(duì)伍中,力壓群雄,第四次拿下冠軍。
除中英以外,科大訊飛已具備其他69種語(yǔ)言的語(yǔ)音識(shí)別能力,其中有35個(gè)語(yǔ)種準(zhǔn)確率超過(guò)90%(數(shù)據(jù)來(lái)源于實(shí)際應(yīng)用)。同時(shí),訊飛開放平臺(tái)還在新加坡、俄羅斯、印度、日本等國(guó)家部署了海外站點(diǎn),將語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù),開放給海內(nèi)外開發(fā)者。
大模型時(shí)代浪潮下,科大訊飛基于深厚的技術(shù)積累,2024年1月31日正式推出星火語(yǔ)音大模型,引領(lǐng)萬(wàn)物互聯(lián)時(shí)代的人機(jī)交互革命。在語(yǔ)音識(shí)別方面,中文、英語(yǔ)、法語(yǔ)、俄語(yǔ)等首批37個(gè)主流語(yǔ)種的語(yǔ)音識(shí)別效果超過(guò)OpenAI Whisper V3。其中,13個(gè)重點(diǎn)語(yǔ)種識(shí)別率達(dá)94%,24個(gè)主要語(yǔ)種識(shí)別率達(dá)90%。
03高準(zhǔn)確率+高識(shí)別率 語(yǔ)音識(shí)別大模型上線
讓更多人能享受到新技術(shù)帶來(lái)的便利,近期,基于星火語(yǔ)音大模型的語(yǔ)音識(shí)別大模型已在訊飛開放平臺(tái)上線,面向開發(fā)者開放調(diào)用,可以將短音頻(≤60秒)精準(zhǔn)識(shí)別成文字,除中文普通話和英文外,支持37個(gè)語(yǔ)種自動(dòng)判別,說(shuō)話過(guò)程中可以無(wú)縫切換語(yǔ)種,實(shí)時(shí)返回對(duì)應(yīng)語(yǔ)種的文字結(jié)果,并提供公有云接口及私有化部署方案。
與傳統(tǒng)的語(yǔ)音識(shí)別產(chǎn)品相比,語(yǔ)音識(shí)別大模型有著獨(dú)特的優(yōu)勢(shì):
高識(shí)別率,高準(zhǔn)確率
基于統(tǒng)一建模的星火多語(yǔ)種語(yǔ)音識(shí)別大模型,極大提升了語(yǔ)音識(shí)別準(zhǔn)確度,真實(shí)還原語(yǔ)音內(nèi)容,提高信息獲取效率
多語(yǔ)種自動(dòng)判別
支持中文、英語(yǔ)、日語(yǔ)、韓語(yǔ)、俄語(yǔ)、法語(yǔ)等37個(gè)語(yǔ)種的自動(dòng)判別,在說(shuō)話過(guò)程中可以無(wú)縫切換語(yǔ)種,助力跨文化交流更自由
指定語(yǔ)種準(zhǔn)確率更高
對(duì)于已明確語(yǔ)種的場(chǎng)景,也可以指定語(yǔ)種進(jìn)行識(shí)別,進(jìn)一步提升正確率
智能標(biāo)點(diǎn)
數(shù)字、標(biāo)點(diǎn)、大小寫和識(shí)別結(jié)果同步預(yù)測(cè),使口語(yǔ)表達(dá)變規(guī)整,帶來(lái)更流暢的閱讀體驗(yàn)
在開發(fā)者資源方面,除了基礎(chǔ)的WebAPI,訊飛開放平臺(tái)還提供了不同平臺(tái)的SDK,包括Android、Linux、iOS、Windows,幫助開發(fā)者將語(yǔ)音識(shí)別大模型能力快速集成到產(chǎn)品中。
目前,語(yǔ)音識(shí)別大模型能力已搭載在訊飛星火APP和訊飛翻譯機(jī)等產(chǎn)品中。
打開訊飛星火APP,用語(yǔ)音與星火進(jìn)行對(duì)話,你所說(shuō)的語(yǔ)音會(huì)快速被識(shí)別為精準(zhǔn)的文字,讓你直觀感受到語(yǔ)音識(shí)別大模型帶來(lái)的高準(zhǔn)確率和高識(shí)別率。
持續(xù)進(jìn)步的語(yǔ)音識(shí)別技術(shù)正進(jìn)一步拓展人機(jī)交互的場(chǎng)景邊界,在客戶服務(wù)、語(yǔ)音搜索、游戲娛樂(lè)、會(huì)議記錄、教育培訓(xùn)等領(lǐng)域,為人類帶來(lái)更加便捷、高效和智能的生活方式。
正如梅拉妮·米歇爾在《AI 3.0》書中強(qiáng)調(diào),自動(dòng)語(yǔ)音識(shí)別是深度學(xué)習(xí)在自然語(yǔ)言處理中的第一個(gè)重大成就,也是迄今為止人工智能在所有領(lǐng)域中取得的最重要的成就。這不僅是對(duì)語(yǔ)音識(shí)別技術(shù)的認(rèn)可,更是對(duì)未來(lái)人機(jī)交互無(wú)限可能的預(yù)示。
點(diǎn)擊閱讀原文,免費(fèi)領(lǐng)取語(yǔ)音識(shí)別大模型試用包,至高20萬(wàn)次服務(wù)量(中文)。
文末彩蛋
2023年,科大訊飛與統(tǒng)信軟件宣布達(dá)成戰(zhàn)略合作,充分發(fā)揮各自技術(shù)和產(chǎn)品優(yōu)勢(shì),共同探索新的商業(yè)模式,推動(dòng)AI技術(shù)在各行各業(yè)的深度應(yīng)用。
統(tǒng)信軟件是全球主流操作系統(tǒng)產(chǎn)品與服務(wù)提供商,統(tǒng)信UOS桌面版發(fā)貨量累計(jì)超過(guò)600萬(wàn),服務(wù)器版發(fā)貨量增速更是位列行業(yè)前列。
近日,訊飛星火、訊飛智文已正式上架統(tǒng)信應(yīng)用商店,讓全球用戶可通過(guò)統(tǒng)信應(yīng)用商店一鍵輕松暢享AI樂(lè)趣,感受前所未有的便捷應(yīng)用與服務(wù)體驗(yàn)。
-
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269906 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112826 -
科大訊飛
+關(guān)注
關(guān)注
19文章
818瀏覽量
61424
原文標(biāo)題:對(duì)標(biāo)Open AI Whisper,語(yǔ)音識(shí)別進(jìn)入下一個(gè) level
文章出處:【微信號(hào):訊飛開放平臺(tái),微信公眾號(hào):訊飛開放平臺(tái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論