9 月 24 日,小米新一代真無(wú)線藍(lán)牙耳機(jī) Air 2正式亮相,在外形和功能上都較一代有了非常大的變化。小米官方海報(bào)廣告詞宣稱(chēng)“智能真無(wú)線,輕松舒適戴”,并且將“智能語(yǔ)音喚醒,雙麥克風(fēng)降噪”作為其首條宣傳賣(mài)點(diǎn)。目前該產(chǎn)品已在小米商城開(kāi)放預(yù)約,9月27日正式上市。
小米Air2宣傳海報(bào),圖片來(lái)源于小米官網(wǎng)
Air2的語(yǔ)音喚醒到底有多智能呢?據(jù)本次算法技術(shù)支持方案商——聲加科技CEO邱鋒海介紹,此次小米Air2采用了聲加科技提供的耳機(jī)本地語(yǔ)音識(shí)別方案,與市面同類(lèi)產(chǎn)品最大的不同是能直接在Air2耳機(jī)端完成多命令詞語(yǔ)音識(shí)別,急速響應(yīng)命令——用戶(hù)在播放音樂(lè)時(shí)無(wú)需喚醒語(yǔ)音助手“小愛(ài)同學(xué)”,可直接向耳機(jī)發(fā)出語(yǔ)音指令“上一首/上一曲”,“下一首/下一曲”,迅速實(shí)現(xiàn)自由切歌,無(wú)需再等待語(yǔ)音助手喚醒手機(jī)進(jìn)行響應(yīng),大大提高了用戶(hù)使用體驗(yàn)。
小米Air2宣傳海報(bào),圖片來(lái)源于小米官網(wǎng)
邱鋒海表示,耳機(jī)搭載語(yǔ)音助手已經(jīng)成為目前TWS耳機(jī)的主流趨勢(shì),但目前市面上絕大部分產(chǎn)品使用的還是以基于手機(jī)的語(yǔ)音識(shí)別方案,用戶(hù)每一次的語(yǔ)音指令都要首先喚醒手機(jī)語(yǔ)音助手,造成響應(yīng)速度較慢(切換歌曲需要等待5~6秒),不少用戶(hù)因此放棄了語(yǔ)音喚醒功能,寧可使用手勢(shì)或按鍵,甚至只能拿出手機(jī)進(jìn)行操作,體驗(yàn)欠佳。其原因主要受限于耳機(jī)運(yùn)算能力較弱以及電池續(xù)航時(shí)間短,給耳機(jī)端進(jìn)行精確的語(yǔ)音識(shí)別造成了極高難度。而聲加科技的小資源關(guān)鍵詞喚醒(KWS)有限語(yǔ)音命令方案攻克了技術(shù)難點(diǎn),可實(shí)現(xiàn)喚醒低功耗計(jì)算方案,KWS啟動(dòng)和手機(jī)語(yǔ)音交互,有限語(yǔ)音命令實(shí)現(xiàn)切歌、調(diào)音量等基本操作。在算法所需資源消耗上,低至30Mips, 50KBytes memory的喚醒詞模型(m4f平臺(tái)),模型規(guī)模可變,能根據(jù)產(chǎn)品計(jì)算資源快速調(diào)整模型,還能整合聲加自有前端語(yǔ)音增強(qiáng),優(yōu)化整體性能。
除此之外,耳機(jī)使用場(chǎng)景復(fù)雜且運(yùn)算資源受限,如果只依靠基于深度學(xué)習(xí)的小資源語(yǔ)音識(shí)別模型,在嘈雜環(huán)境下會(huì)存在誤識(shí)率高、識(shí)別率低的問(wèn)題。而Air2同時(shí)還搭載了聲加科技的雙麥SVE降噪技術(shù),如定向拾音、環(huán)境降噪(尤其是風(fēng)噪抑制)等,能有效降低通話時(shí)的環(huán)境噪聲,即使身處嘈雜環(huán)境,也能保障高清晰的語(yǔ)音識(shí)別以及通話質(zhì)量。
對(duì)小米Air2直接說(shuō)“下一首”,迅速切換歌曲
據(jù)了解,聲加科技成立于2018年1月,專(zhuān)注于通信聲學(xué)核心技術(shù),依托于中科院聲學(xué)所雄厚的人才和科研資源,打造產(chǎn)學(xué)研一體化。其SVE(Soundplus Voice Enhancement)降噪技術(shù)可以廣泛應(yīng)用于耳塞式耳機(jī)、半入耳式耳機(jī)、入耳式耳機(jī)、頭戴式耳機(jī)、掛耳式耳機(jī)等,是通過(guò)雙麥克風(fēng)陣列,精準(zhǔn)計(jì)算通話者說(shuō)話的方位,在保護(hù)主方向目標(biāo)語(yǔ)音的同時(shí),去除環(huán)境中的各種干擾噪聲,例如其他人的講話聲、交通工具產(chǎn)生的噪音、風(fēng)噪聲等等,有效抑制90%的反向環(huán)境噪聲,由此降低環(huán)境噪聲最高可達(dá)30dB,保證高品質(zhì)通話效果。讓使用者無(wú)論身處何種嘈雜環(huán)境,都可細(xì)語(yǔ)輕聊,無(wú)懼干擾。其核心技術(shù)包括:
回聲消除AEC:
支持單通道回聲抵消、雙通道立體聲回聲抵消,可在設(shè)備自身播放大音量時(shí)輕松喚醒,ERLE》30dB。
聲源定位Direction of arrival estimation:
支持多源定位;可在強(qiáng)混響及噪聲干擾情況下準(zhǔn)確定位目標(biāo)聲源;工作信噪比可低至0db以下;DOA分辨率《10°。
波束形成Beamforming:
保護(hù)目標(biāo)語(yǔ)音的同時(shí),去除噪聲干擾與散射噪聲,大幅提高語(yǔ)音識(shí)別率;穩(wěn)態(tài)噪聲抑量》30dB,非平穩(wěn)噪聲印制量》24dB。
關(guān)鍵詞喚醒、有限語(yǔ)音命令詞識(shí)別Key word spotting、command
基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,根據(jù)前端算法進(jìn)行深度優(yōu)化,精確辨識(shí)關(guān)鍵詞,超低誤喚醒。消耗資源配置靈活(小模型超低資源占用;資源豐富時(shí)可實(shí)現(xiàn)高性能識(shí)別),可應(yīng)用于耳機(jī)、手環(huán)、手表等可穿戴智能設(shè)備。5米喚醒率》93%,3米喚醒率》97%,誤喚醒《2次/48H。
基于機(jī)器學(xué)習(xí)降噪/識(shí)別
已成功用于聲學(xué)建模,與標(biāo)準(zhǔn)GMM模型相比語(yǔ)音識(shí)別率實(shí)現(xiàn)了大幅改進(jìn),DNN是全連接神經(jīng)網(wǎng)絡(luò),解決了局部最優(yōu)解的問(wèn)題;卷積神經(jīng)網(wǎng)絡(luò)CNN降低模型體積,充分利用語(yǔ)譜中的局部信息;循環(huán)神經(jīng)網(wǎng)絡(luò)RNN可以對(duì)時(shí)間序列進(jìn)行建模,適合處理語(yǔ)音信號(hào)。對(duì)動(dòng)態(tài)/穩(wěn)態(tài)噪聲均有效(~30dB)同時(shí)保護(hù)語(yǔ)音成分,表現(xiàn)魯棒。
音效:
EQ均衡:通過(guò)對(duì)各種不同頻率的電信號(hào)的調(diào)節(jié)來(lái)補(bǔ)償揚(yáng)聲器和聲場(chǎng)的缺陷,補(bǔ)償和修飾各種聲源及其它特殊作用。
虛擬環(huán)繞聲:在雙聲道立體聲的基礎(chǔ)上,不增加聲道和音箱,把聲場(chǎng)信號(hào)通過(guò)電路處理后播出,使聆聽(tīng)者感到聲音來(lái)自多個(gè)方位。
SVE開(kāi)啟前后對(duì)比(公路噪聲):
此外,作為智能聽(tīng)覺(jué)的創(chuàng)新公司,聲加科技的耳機(jī)技術(shù)方案還應(yīng)用在了華為Flypods、小米Air、小米Air2、萬(wàn)魔EM001、萬(wàn)魔EM004、京東京魚(yú)座等產(chǎn)品上。目前,其團(tuán)隊(duì)?wèi){借十余年的技術(shù)積累,可為B端客戶(hù)提供復(fù)雜場(chǎng)景下的近場(chǎng)、中場(chǎng)、遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)方案,以及從芯片、模組、PCBA到工業(yè)設(shè)計(jì)的一站式產(chǎn)品方案。其回聲抵消、噪聲抑制、聲源定位、混響消除、波束形成、語(yǔ)音喚醒等性能在行業(yè)內(nèi)均名列前位。
-
小米
+關(guān)注
關(guān)注
70文章
14384瀏覽量
144903
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論