電子發燒友報道(文/周凱揚)伴隨著虛擬現實和TWS的發展,人們對于聲音的要求也在逐漸提高,普通的5.1與7.1環繞立體聲作為多揚聲器方案,已經難以滿足用戶在AR/VR、游戲和娛樂領域對“真實”的追求。演唱會、球賽和大會上的臨場感才是大家渴望的聽覺體驗,于是3D音頻這一技術又再度起死回生。
3D音頻作為人類對聲學領域的又一大探究,其實可以追溯到1881年法國工程師克萊門特·阿代爾發明的劇場電話,該裝置將不同聲道的信號通過兩個聽筒傳輸出來,營造劇場內的立體聲效。1972年,德國諾音曼公司推出了第一個商用的立體聲錄制系統,并被廣泛應用于錄音棚,但要想營造全方位的3D音頻,這對當時的錄音設備成本和播放設備成本來說都是一大挑戰。而AR與VR等應用到來,對聲音的定位需求再度拔高,又讓這一技術重煥生機。
談到3D音頻,就不得不談到人對聲音位置的識別原理,人類大腦用三大方面來判別聲音位置:耳朵的形狀,每只耳朵接收聲音的時間差,以及每只耳朵間的升壓。這就引出了頭部相關傳輸函數(HRTF),一種音效定位算法。但是每個人的頭型、耳型都是獨一無二的,如果不能計算出正確的HRTF,那么聽者會對聲音的方位感到迷惑。
蘋果
Airpods Pro空間音頻 / 蘋果
蘋果在今年的Airpods Pro固件更新中加入了空間音頻功能,也是蘋果對3D音頻的首次嘗試。其實蘋果早就提供了用HRTF生成空間音頻的API,作為ARKit開發工具的一部分,而借助Airpods Pro中的加速度計和陀螺儀追蹤用戶的頭部運動,再通過定向音頻過濾器和調整每只耳朵接受的音頻頻率,有效計算出音頻該如何映射,從而創造出“空間音頻”的聽感。
不僅如此,蘋果的空間音頻將調用iPhone或iPad中的加速度計與陀螺儀,實時追蹤播放設備的位置,即便是轉頭或遠離,音源依然固定在播放設備的位置上。雖然空間音頻也支持5.1、7.1和杜比全景聲等立體聲格式,但是考慮到對播放內容的要求,只有特定的支持應用才能充分利用這一功能。
索尼
索尼在近期推出的PS5中同樣新增了3D音頻功能,利用全新的Tempest引擎實現。首席設計師Mark Cerny提到,上一代PS4提供的音頻體驗很差,只能調用AMD Jaguar內核中一小部分來提供7.1環繞聲,而PS3時代則是直接使用協處理器來實現。因此索尼隨后推出的PSVR中加入了定制音頻單元,支持50個優質音源,而此次PS5的Tempest引擎更是支持上百個更高質量的音源。
Tempest其實是一個重新加工的AMD GPU計算單元,去掉了緩存,僅僅依靠直接存儲器訪問(DMA)的數據傳輸,從而充分發揮這一計算單元的矢量處理能力,正如PS3的協處理器一樣。最終實現的計算單元SIMD性能和帶寬已經等同于PS4上的8個Jaguar內核,如果按照與PSVR相同的算法標準來衡量的話,足以支持5000個同質量音源,但PS5更傾向于使用更復雜的算法實現高質量音源,況且也不需要用到如此多的音源。
不同的HRTF對比 / 索尼
而且索尼已經為上百個測試人群進行了HRTF建模,并提供5種預設方案,與此同時,用戶還可以通過應用給索尼發送雙耳的正面照片,索尼將利用神經網絡從HRTF庫中為用戶選取參數最接近的一套配置。這種參數獲取方式其實已經在索尼的另一大3D音頻服務360 Reality Audio中實現了,但該服務主要面向音樂應用。索尼還提到未來也許會開發一個音頻游戲,通過得分來微調HRTF,為用戶提供最契合的3D音頻體驗。
雖然不同廠商對HRTF的獲取方式不同,但要想實現3D音頻可沒這么簡單,同樣必不可少的還有DSP。
高通
Waves旗下的Nx實現了一套專門用于耳機和耳塞的3D音頻方案,利用心理聲學來實現揚聲器級別的3D聽感體驗。Nx將利用單個IMU來執行頭部追蹤,并借助手機設備的IMU來實現一套雙傳感器算法,根據移動或運動下的參考數據確保聲場位置。
Hexagon 698 DSP / 高通
但這樣的實現方式會消耗移動設備一定的算力,從而對電池使用時間造成影響。所以Waves與高通合作,通過高通的Hexagon DSP和硬件優化,Waves Nx能夠有效率地運行在搭載驍龍芯片的手機上,實現沉浸式的音頻體驗而不會犧牲電池壽命。就拿驍龍865中的Hexagon 698 DSP來說,這一數字信號處理器只有指甲大小,卻內置4核張量加速器,可以做到每秒15萬億次的算力。
CEVA
美國廠商VisiSonics也提供了自己的3D音頻解決方案RealSpace 3D Audio,這是一套基于物理實現3D音頻算法的空間音頻軟件,并支持房間反射、物體遮擋和HRTF的模型創建。此外,RealSpace 3D Audio既可以在設備app或DSP硬件上實現,也可以采用混合處理的方式。
RS3D在CEVA DSP上的實現 / CEVA
在DSP端,VisiSonics與著名DSP廠商CEVA合作,借助CEVA-X2或CEVA-BX1/BX2這三款DSP,RealSpace 3D Audio可以將5.1、7.1、基于物體的音頻等立體音頻空間化,并根據CEVA的六軸傳感器FSP200獲取頭部跟蹤數據。
CEVA-X2原理圖 / CEVA
CEVA-X2是一款基于16nm工藝的10級流水線DSP,工作頻率在2Ghz,達到4.5CoreMark/MHz的得分。該處理器包含兩個標量處理單元,支持8/16/32/64位數據類型的算法和邏輯運算。正是因為擁有這樣的性能,這款DSP才用作高性能語音處理,比如多麥克風語音處理、3D音頻和高質量音頻播放等。
小結
盡管如今市面上已經涌現了不少3D音頻的解決方案,但其實現方式與兼容性都有所差距。單拿HRTF的獲取來說,借助設備端的傳感器是最簡單的方式之一,但是較差,而通過app遠程拍攝耳型與頭型的方式則需要龐大的數據庫支撐,因此往往僅對小數量的人群進行嚴格的HRTF測量,再借助計算機視覺和神經網絡來匹配。除此之外,設備端DSP的不同有時可能會對同一3D音頻方案的實現造成阻礙。
音源的錄制方式同樣為3D音頻的普及帶來了障礙,比如有的音頻錄制需要先交納一定的授權費用才能使用,有的3D音頻內容則只有在特定的設備上才可以進行播放。不僅如此,藍牙設備的音頻編解碼格式(APTX、LHDC)、音頻文件的格式(MPEG-H)同樣會帶來不同的3D音頻效果。如此看來,3D音頻確實可以帶來非凡的聽感體驗,但目前來看效果不一而且多數廠商各自為戰,要想占據主流市場,仍面臨著不小的挑戰。
本文由電子發燒友網原創,未經授權禁止轉載。如需轉載,請添加微信號elecfans999。
-
蘋果
+關注
關注
61文章
24459瀏覽量
199542 -
3d音頻
+關注
關注
0文章
6瀏覽量
10989 -
TWS
+關注
關注
17文章
390瀏覽量
39972
發布評論請先 登錄
相關推薦
評論