最新研究表明,蘋果公司正在研究HomePod或其他設備如何使用音頻來估計與講話用戶之間的距離,并識別周圍的聲音。
Apple的HomePod已經非常擅長于聽到您的聲音,即使它正在大聲播放音樂。蘋果公司有兩項單獨的新專利申請表明,蘋果公司希望將其改進,并將設備的聆聽能力提高到一個新水平。
其中之一,“基于學習的距離估計”,不僅涉及使用音頻來識別用戶,而且要弄清楚他們在哪里。
專利申請說:“通常希望設備使用[其]緊湊型麥克風陣列來估算從設備到用戶的距離。” “例如,該設備可以基于用戶到該設備的估計距離來調整播放音量或來自智能輔助設備的響應。”
繼續說:“因此,如果用戶離設備非常近,則不會大量播放音樂或語音。” 或者,如果用戶離得很遠,則可以將媒體播放或來自智能助手設備的響應調整為更大的音量。”
同樣的想法也意味著將其引入蘋果公司目前令人印象深刻但有些瑕疵的系統,在該系統中,所有設備都會嘗試確定您對“嘿,Siri”說的是什么。
蘋果公司說:“在有多個設備的應用程序中,這些設備可以在彼此之間進行協調或仲裁,以根據從每個設備到用戶的距離來決定應回答一個或多個設備的查詢。”
蘋果公司提出了簡單和更復雜的解決方案,它們都可以同時使用。更簡單的方法是讓設備先執行HomePod的工作并首先繪制其環境圖。
然后,它實際上具有“在聲學環境中的測量點或模擬點的網格”。在這種情況下,可以將聲音與此“網格”進行比較,以大致了解說話者所在的位置。
但是,Apple認為這本身并不足夠好,并且還說它與Siri最少一起使用。那是因為一個人說話時可能會動彈,而且他們要求快速回應-此提議不適合。
備選地,然后,“如果至少兩個麥克風陣列可用”,則“可以使用三角測量方法來估計語音源的距離”。
但是,這里的關鍵部分是至少需要兩個帶麥克風的設備。因此,Apple提供了另一個涉及更多的解決方案,其中涉及“基于學習的系統,如深度神經網絡(DNN)”,并且不需要多個設備。
專利申請說:“深度學習系統可以根據緊湊型麥克風陣列接收到的語音信號來估計每個時間幀的語音源距離。”
這個DNN系統可以做的是確定什么是語音,什么是背景噪聲。然后,它可以計算“有關直接信號傳播的信息”以及“混響效果和噪聲”。
該申請歸功于三位發明者,包括Mehrez Souden和Joshua D. Atkins。他們先前的相關工作包括已獲專利的如何使用比普通麥克風少的聲音來錄制完整空間聲音的專利。
這特別涉及Apple AR中的音頻,該最新專利申請涉及真實環境中的物理設備。但是,如果只是為了避免用太大聲的HomePod mini炸毀別人的耳朵而感到很麻煩,那還有很多事情要做。
該專利申請說:“例如,助聽器之類的輔助和增強型助聽器可以根據語音源的距離來增強音頻信號。”
這也是第二個新公開的專利申請重點關注的內容。
識別重要的聲音
“基于觀察到的聲音識別聲源的系統和方法”,是關于讓一些設備識別其他聲音并為我們做出反應。
“許多家用電器,例如微波爐,洗衣機,洗碗機和門鈴,會發出聲音來提醒用戶該器具的狀況已經改變,”該專利申請開始。
它繼續說:“但是,由于各種原因,用戶可能無法聽到家用電器發出的聲音警報。” “例如,用戶可能有聽力障礙,用戶可能在外面或在另一個房間里,或者設備可能發出被家庭聲學場景遮擋的聲音。”
也不必是您的煮蛋計時器關閉。該專利同樣涉及“公共場所(政府大樓),半公共場所(辦公室大廳)和私人場所(住宅或辦公大樓)”中的聲音。
它說:“(這些)也有聲學場景,可以包含帶有信息的聲音。” “例如,鈴,鈴或蜂鳴器可能指示門已經打開或關閉,或者警報器可能發出警報聲或其他聲音,警告附近的人有危險(例如,煙,火或一氧化碳)。”
總體而言,該專利申請主要詳述了可以“訓練”設備以識別“常見聲音”的方法。然后,它將繼續偵聽其中的任何一個,并且當聽到一個聲音時,可以發出“響應于確定聲音存在于聲學場景中的選定輸出”。
換句話說,如果是您的煮蛋計時器關閉,則該設備可能會使您的Apple Watch在手腕上輕按。或者,如果是防盜警報,則該設備可以通知當局。
蘋果公司表示:“聲音中包含大量的上下文信息。” “識別常見的聲音可以使電子設備響應于觀察到的環境(例如,根據觀察到的聲音確定)來適應其行為或提供服務,從而增加它們對用戶的相關性和價值,同時需要更少的用戶幫助或輸入。”
第二項專利申請歸功于包括丹尼爾·克林格(Daniel C. Klinger)在內的四位發明家。他先前的工作包括一項專利申請,該專利用于通過HomePod或其他設備進行安全的電話呼叫。
責任編輯:lq
-
音頻
+關注
關注
29文章
2899瀏覽量
81807 -
蘋果公司
+關注
關注
2文章
447瀏覽量
22618 -
深度學習
+關注
關注
73文章
5512瀏覽量
121415
發布評論請先 登錄
相關推薦
評論