9月16日,華為多媒體管線服務(AV Pipeline Kit)技術直播正式開啟。華為多媒體管線服務產品經理Michelle、華為多媒體技術專家Salvatore、華為計算機視覺算法專家Ting、和華為AI技術專家Eric相聚直播間,深度解析了AV Pipeline Kit的技術要點和應用場景,助力廣大音視頻開發者以更輕松更高效的方式,為用戶提供新玩法,新交互。
緣起:音視頻開發面臨諸多挑戰,麒麟協同各團隊力量推AV Pipeline Kit
隨著寬帶提速,5G 普及,AI技術應用,用戶對網絡視頻的內容、互動性、播放速度和清晰度的要求越來越高。相應的,多媒體開發呈現出實時化和智能化的趨勢,開發者在開發與管理過程中,面臨更高的技術門檻、更多的開發工作量等諸多挑戰。
其一,開發難度進一步加大,開發成本更高。很多視頻+AI的開發,需要在傳統管線中加入AI處理技術,這涉及到諸多數據處理能力,對于開發者來說技術門檻很高。
其二,端側實時化的智能視頻開發可能會遇到算力和功耗的限制。以端側超分為例,手機端算力比較受限,而視頻逐幀的超分實時處理對時延和功耗的要求是極高的。此外,視頻解碼后的數據要拿去做超分,就涉及到數據在不同IP之間的流轉和拷貝,會影響功耗,導致手機發燙。
以上諸多痛點,阻礙了開發者創新的腳步。為此,麒麟團隊整合了各個部門的能力,包括多媒體團隊、NPU團隊以及算法團隊,在今年7月份推出了華為多媒體管線服務(AV Pipeline Kit)。AV Pipeline Kit是一個面向安卓開發者的多媒體開放能力體系,它包含一個輕量級的多媒體開發框架和一系列高性能的音視頻處理插件,幫助開發者們降低開發難度,讓開發者們可以通過自定義流水線編排,將多種高性能插件快速集成到應用中,輕松實現更加豐富的多媒體功能。
輕量化設計:“拼樂高”式的流水線編排,助力開發者高效開發
在AV Pipeline Kit多媒體開發框架中,包含了多個預置的流水線編排,即一些現成的開箱即用的業務場景,被封裝成了接口供直接調用;同時也支持自定義流水線編排,將不同插件按不同的連接關系串聯起來形成新的業務場景。
如何簡單理解流水線編排的過程呢?以視頻超分為例,按照插件之間的處理順序來看,首先是一個音視頻的解封裝過程,然后會經歷音視頻的解碼,而后解碼視頻幀會進行視頻超分處理,最后進行送顯。從輸入到輸出,可以看成是一個流水線的過程。
談及流水線編排的設計思路,華為多媒體技術專家Salvator表示,首先是對業務進行抽象,然后把它分割成子過程,對子過程再進行一個抽象,實現具體的插件,最后再把插件用Pipeline的方式拼接起來。這樣的好處一方面是便于統一管理,另一方面提高了復用度。
這個過程可以簡單理解為拼樂高,一個個插件就是一個個不同形狀的樂高片,開發者的業務就像搭樂高一樣,不同的開發者可以從插件庫里選擇需要的插件,拼成想要的業務場景。AV Pipeline Kit定義了一套插件標準接口,開發者只需要繼承這個接口類,并實現初始化和數據處理相關的邏輯即可,無需考慮并發、線程同步、狀態轉移、buffer池管理、多實例等問題,這些已經全部由框架層實現好了。
突破:視頻超分,最高3倍超分效果背后的技術優勢
所謂“超分”,可以理解為在視頻播放過程中進行智能識別與銳度優化,從而讓視頻看起來比原本更清晰、明麗。在大型影視和游戲制作中,超分是一種非常關鍵的技術。想要在端側在線場景中,幫助開發者獲得實時化、高性能、低功耗的超分,就需要從AI技術到硬件資源調用的一系列優化。
據華為計算機視覺算法專家Ting介紹,AV Pipeline Kit提供傳統的GPU超分方案和AI超分方案兩種,以達到性能和功耗的平衡。“比如我們檢測到在麒麟高端芯片上,就會優先采用NPU的AI超分算法,最高可實現3倍的超分效果。如果沒有NPU的硬件,我們就會選擇GPU方案做超分處理,效果可能會有一些下降,但性能上是滿足了實時性要求的。”
為了幫助開發者便捷獲取真實可用的逐幀超分能力,實現超分不卡頓的體驗,AV Pipeline Kit首先在機器視覺算法上進行了一系列技術突破。比如,在AI模型結構上應用了卷積神經網絡,提升了復雜真實場景的超分效果;在數據工程方面,用一系列方法還原了多媒體數據的構造過程,提升網絡的優化結果;在端側模型壓縮方面,進行了新的網絡小型化探索,確保超分效果可以在端側場景中被很好地執行。
其次,為了兼顧高性能與低功耗,AV Pipeline Kit和華為 HiAI Foundation之間也有不少配合。據華為AI技術專家Eric介紹,華為HiAI Foundation作為NPU使能的基礎平臺,能夠快速將原始模型轉換成華為Davinci Model,并通過Davinci Model的調優技術,優化模型結構,充分發揮NPU硬件單元的算力,令模型算子以更低功耗在手機端側高效運轉。
在超分業務中,內存DDR的頻繁讀寫對性能和功耗都是很大的挑戰。HiAI Foudation算子庫在優化模型執行時,重點對算力和帶寬利用做了平衡,在滿足業務要求的算力情況下,盡可能的減少對于內存的反復讀寫,更多的利用內部buffer和cache,極大地提供了性能,降低了功耗。
在一系列的技術突破之后,用戶可以獲得更好的畫質體驗,視頻平臺可以節省帶寬和服務器資源,開發者則能夠高效集成業務,降低工作量。
突破:聲音事件檢測,為實現98%識別率攻克的技術難題
對于開發者來說,聲音事件檢測是相對比較復雜的技術,需要豐富的技術資源與開發經驗。AV Pipeline Kit將這些功能以文件配置的形式直接帶給開發者,且經過麒麟團隊的長期深耕,聲音檢測事件插件可以確保聲音識別的準確與穩定。
目前,AV Pipeline Kit聲音事件檢測目前已經可以支持日常使用的13種聲音,包括無障礙功能、健康檢測、輔助安全駕駛、安全防盜、事故報警防剮蹭、停車啟動安全等豐富的場景。經過研發團隊的深度優化和組合驗證,當前識別準確率平均在98%以上,無論從聲音事件類別還是識別性能上來看,都屬于業界領先。
據華為計算機視覺算法專家Ting介紹,團隊主要聚焦在兩個點上做突破,確保了聲音識別的準確及穩定性。一是解決了不同聲音事件的時間片段的長短。不同聲音事件長短不同,比如孩子的哭聲以及寵物叫聲,貓叫狗叫是瞬發型的,而哭是一個持續性的動作,所以他們的事件片段,時間片和長短是不一樣的,聲音事件檢測插件在設計網絡的時候,參考了Inception網絡,計算多個不同大小的卷積,這樣感受野就不同,進而提出的特征就更加具有針對性,特征空間更加豐富。
二是易混淆類別頻譜的區分。有一些聲音事件的混淆度比較高,比如在某些情況下小孩的哭聲和貓叫聲相當接近,無論是人區分以及轉化為頻譜信息之后去查看,都很容易混淆。聲音事件檢測插件引入技術注意力機制,對易混淆的類別做一個區分。
面向未來:
深挖視頻播放、編輯場景,為開發者提供創新能力
最后,華為多媒體技術專家Salvatore表示,AV Pipeline Kit后續會繼續完善框架和插件,重點關注如視頻播放、視頻編輯等對性能要求比較高,對功耗比較敏感的場景,包括考慮預置錄制和編輯業務,以及與人像拍攝美化相關的插件能力。
未來,麒麟團隊將持續投入核心技術,突破技術難點,簡化底層開發繁瑣流程和難點,降低智能化視頻開發的門檻,助力音視頻開發者技術創新,在激烈的競爭角逐中取勝。
編輯:jq
-
DDR
+關注
關注
11文章
712瀏覽量
65362 -
帶寬
+關注
關注
3文章
937瀏覽量
40939 -
服務器
+關注
關注
12文章
9184瀏覽量
85482 -
AI
+關注
關注
87文章
30946瀏覽量
269196 -
AV
+關注
關注
2文章
268瀏覽量
44513
原文標題:如何降低開發門檻,助力音視頻創新玩法?AV Pipeline Kit深度技術解析
文章出處:【微信號:Huawei_Kirin,微信公眾號:華為麒麟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論