云時代,視頻直播、實時音視頻通信等在線音視頻服務面臨各種復雜的網絡環境和流量爆發式的增長,對音視頻質量監控和成本優化提出新的嚴峻挑戰。本次分享我們邀請到了華為云音視頻大數據研發負責人康永紅,他詳細介紹了基于大數據的音視頻全流程質量監控評估體系和各個環節的優化實踐,以及面向不同的業務和場景,如何通過不同的關鍵數據指標改進音視頻服務的體驗質量和產品成本。
大家好,非常有幸能有這次分享機會,首先感謝LiveVideoStack。我是康永紅,來自華為公司,在大數據和音視頻業務領域有十多年研發經驗,負責直播、視頻會議、RTC、VR的QoC、QoE、QoS管理,主要聚焦在基于大數據解決音視頻產品體驗提升和成本優化的業務領域。我個人認為這也是整個音視頻領域的一個難點。
2020年是不平凡的一年,客觀來說它促進了我們音視頻業務的爆發性增長。華為云基于大容量、低時延、全互聯的媒體網絡,通過全國的2000多個節點和幾百T的寬帶,和我們的客戶一起服務了億級在線用戶。在這個過程中,通過大數據解決視頻體驗質量和成本優化顯得尤為重要,同時我們也積累了一些經驗,今天我將和大家分享云原生時代,華為云在音視頻質量監控與優化的實踐。
本次分享主要分為四部分:第一部分是云原生時代為什么要做音視頻數據服務體系,第二部分是華為云視頻直播和RTC音視頻直播在體驗質量上的實踐案例,第三部分會介紹華為在云原生時代是如何快速構建音視頻服務全流程質量監控平臺,最后將總結和展望音視頻業務體驗質量的思考和技術規劃。
1 “ 構建音視頻數據服務體系
從音視頻體驗的發展趨勢來看分為直播、RTC和XR三代,可以歸納為兩個特點:第一點是用戶體驗越來越真實,傳輸分辨率從720P到1080P、再到XR的4K、6K、8K、乃至更大;另一點是業務要求互動性越來越強,遲延方面從30s到XR不超過100ms,對延遲要求更低。
基于以上質量體驗的發展趨勢,我們需要有一個后臺技術支撐。我們在使用大數據解決支撐的過程中也經歷了三個階段:首先是5年前用大數據平臺解決技術問題,其次是在3年前用數據中臺解決效率問題,第三個階段是最近兩年我們綜合1.0、2.0時代的特點,采用“中臺+可信數據服務”的數據服務中臺模式解決價值問題。我們認為數據服務中臺是解決業務差異性和市場不確定性的最佳框架。
在直播中我們經常會碰到卡頓、實時音視頻通話延遲等情況,這些問題都會嚴重影響用戶體驗。解決這些問題的一般方法是構建音視頻質量監控平臺,采集數據,用大數據的方法解決監控質量問題。在這過程中,我們又會碰到一些新的問題,比如采集數據延遲很大、丟失很多、數據不準確,此外還包括大數據算力不夠、交付時延比較長等等問題。這些體驗和技術問題帶給我們很多挑戰——包括會在什么場景出現這些問題,無法精準確定是網絡問題、設備問題還是環境問題,以及這些問題影響了哪些客戶等等。
那我們要怎么解決這些問題呢?在端+邊緣計算+云計算的云原生時代,技術上已經給了我們一些解決方法。最好的實踐是基于“數據湖+數據服務”的云原生數據驅動能力,去解決業務差異性和市場不確定性。這套架構分為六層,我們通過這六層去解決后臺系統的相對穩態及前端業務穩態之間的矛盾。
架構落地的具體實踐是基于云服務基礎設施,首先我們構建了統一的音視頻數據湖,同時構建從采集、生產到消費的數據價值鏈,通過這兩者結合,支持所有同時在線的幾大類服務接入,和面向內外部七類客戶,以及包括運營、運維等客戶數據服務的QoS、QoE、QoC等三大類七小類的場景訴求。當然僅僅基于這個架構開展體驗質量優化工作是遠遠不夠的,這只是技術上的解決方法。
從在業務角度出發,我們認為QoE體驗是一個管理的問題,我們在業務上需要做一些設計,這塊我們構建了音視頻服務的體驗體系,大致分為兩個大的階段和三個小的階段。兩個大階段是先診斷、再提升,在診斷中分為監控和診斷兩個小階段。
具體展開來看,首先需要構建QoE、QoS的立體實時監控體系以及輔助AI的異常檢測方法,做到實時發現問題。第二步在發現問題后用秒級診斷能力,快速診斷體驗原因,這個原因可以具體到用戶行為級。基于診斷結果,第三步就需要做體驗提升,一般有兩種方法:第一種是依靠人工經驗做優化,另一種方法是智能調度,我們在面向不同行業、不同場景的情況下,基于智能調度策略在成本可控的情況下做到用戶體驗最優。
基于上述體驗質量優化體系,接下來我將具體展開分享華為云在視頻直播和RTC實時音視頻方面的體驗優化實踐的案例。
2 “ 華為云視頻直播體驗優化實踐
我們首先看一下華為云視頻直播體驗優化實踐案例,我們在做到低時延、不卡頓、高清晰的同時,還實現了成本可控。總體分為三個階段:第一階段質量監控,第二階段問題診斷,第三階段體驗提升。
視頻直播的質量監控,我們首先構建了覆蓋流質量、體驗、規模、網絡、成本、設備六個維度的立體質量監控體系,涵蓋了QoE、QoS、QoC三十多個指標,其中包括幀率、碼率等核心的QoS指標,秒開率、卡頓率等QoE體驗指標和帶寬、回源率等成本QoC相關的指標。
第二個階段問題診斷——視頻直播的秒級質量診斷,這是基于網絡數據+端數據構建的直播流全鏈路監控體系。診斷流程貫穿了第一公里主播端監控推流幀率等QoS指標,到網絡節點間幀率、碼率等QoS質量指標監控,帶寬回源率、成本指標,以及最后一公里觀眾端卡頓、秒開、黑屏等QoE指標。這樣就實現端到端實時的秒級監控,如果發現異常情況可以及時反饋給顧客和調度系統,比如我們在第一公里發現幀率、碼率出現異常,就通知客戶在主播端進行策略調整,如果實在網絡發現異常,就做一些節點用戶數據調動或其他策略的優化,而當觀眾端出現體驗異常時,智能調度系統會做調度策略的調整。以上整個全鏈路監控系統覆蓋了12路直播全場景和全協議監控。
直播流全鏈路監控系統——從第一公里、到媒體網絡、再到最后一公里,整個都是可視化的,這樣可以提升問題診斷的效率。
第三步體驗提升,視頻直播體驗提升大致分為兩種方法。其一是通過運維同學的經驗實施,另一種方法是基于智能調度系統——基于端、邊、云數據協同做智能調度體驗優化,這種方法利用了統一視頻數據湖技術,實現端、邊、云的QoS、QoE、QoC數據的協同,通過智能分析引擎生成流、客戶、網絡鏈路、節點、觀眾的實時畫像,基于實時畫像+調度策略由智能調度系統實施智能調度,在成本可控的情況下做到最佳體驗。衡量指標主要選取兩類指標,一類指標是成本指標,比如通過回源率來衡量成本是否下降;另一類指標為體驗指標,通過卡頓率、秒開率等判斷用戶體驗是否有提升。以上是視頻直播在質量監控和體驗提升的一些實踐案例。
3 “ 實時音視頻RTC體驗優化實踐
接下來分享實時音視頻RTC的體驗優化的實踐案例。RTC屬于第二代音視頻業務,它和第一代直播在業務方面有很多差異,比較關注時延以及行為級的監控,基于這些差異性,我們也采用了三個不同優化體系。
第一點是質量監控,RTC質量監控體系建立了覆蓋通話、網絡、成本、設備等六個維度的立體質量監控體系,覆蓋QoE、QoS、QoC三十多個指標。其中核心指標包括等碼率、幀率、丟包率、抖動質量QoS指標和秒開率、時延、卡頓率、入房和選看成功率等用戶體驗QoE指標,以及帶寬等成本QoC指標,與直播監控指標相比,特別是端到端的時延指標,這是基于前面提到的差異性著重關注的。
基于監控體系,第二個工作是問題診斷,我們首先建立了三類體驗質量數據服務,第一類是監控指標數據服務,主要覆蓋的是服務端、客戶端、設備、QoE、QoS、QoC,這些數據放在統計庫、時序庫中使用。第二類是網絡端所有控制面和媒體面的事件數據服務。第三類是終端事件數據服務,包括終端側用戶行為事件,例如加入房間、切換角色、操作麥克風或攝像頭等事件,此外還包含了終端設備數據,例如CPU、內存、攝像頭等。
基于這三類體驗質量數據服務,RTC構建了三層問題診斷體系。
第一層構建是覆蓋全鏈路、全維度的QoE/QoS實時監控體系,可以在分鐘級完成體驗診斷和快速恢復問題。上圖案例中,紅色1是十一點時發現成功率告警,我們通過維度下降發現是某一個客戶的APP下降很厲害,最后通過節點維度定位到是天津某一個SFU節點服務異常,整個故障恢復時間在分鐘級就可以完成。
第二層監控體系是基于網絡行為數據和端側行為數據的一鍵式用戶個例通話QoS調查能力,它可以幫助我們快速解決RTC業務單用戶的體驗問題和投訴。上圖的案例通過房間信息以及用戶行為事件信息,快速判斷用戶聽不到聲音是因為進行了靜音操作導致的,整個過程也是在分鐘級完成。
第三層問題診斷能力是在第一層QoE/QoS全局指標監控和第二層QoS行為調查能力基礎上的體驗問題自動診斷高級能力,它通過監控三十多個指標產生二十多個異常事件,并通過學習模型,給出影響的六類體驗場景。這樣系統就可以快速自動化地判斷出體驗發生異常的原因,并且快速傳遞給客戶。
4 “ 音視頻服務全流程質量監控平臺
上述介紹的是華為云RTC業務體驗優化的實踐案例,做體驗質量優化工作是需要平臺完成的,我們下面來分享華為是如何構建音視頻服務全流程質量監控平臺的。首先從數據采集、傳輸、計算到消費四個環節的億級規模音視頻質量監控大數據平臺,包括支持端、邊、云全數據采集和傳輸的數據網絡,支持實時計算、離線計算和機器學習的多模數據處理系統,以及支持運維、運營、客戶的數據消費服務體系。
在構建平臺時,會遇到很多性能、質量、效率以及實時性的問題,如何構建一個大容量、低成本、高效率和可信數據質量的平臺?我們采用了批流一體和存算分離的架構。批流一體解決的是開發效率的問題,我們同一個指標可能在批流一體中計算一次就可以對所有服務使用,不需要重復開發,同時我們有一站式數據開發平臺可以解決開發效率的提升。成本問題上我們采用的是存算分離——存儲和計算是分離的,存儲采用的是對象存儲,價格相對低廉,計算引擎采用的是前面介紹的批流一體的方式,這樣可以做到成本最佳。質量方面是采用了“ODS-DWD-DWS-ADS”四層數據治理平臺,保證所有數據可跟蹤、可管理,確保任何指標數據都是實時、完整、準確的。
在有了大容量、低成本的平臺后,我們還面臨斷網、設備故障等問題。我們在平臺可用性上基于云服務實施,采用跨Region主備容災和多AZ模式,整體SLA可達99.99%,來自端、邊緣、云等全部六類數據不丟失,監控、調度等六類服務不降級。這樣我們在整個環境下,任何環節出現異常,在質量和服務提升上都可以正常工作。
5 “ 總結與展望
回顧本次分享,音視頻體驗發展有三個特點:第一,用戶對體驗的要求是真實感越來越強,直播、RTC等用戶要求更高;第二,在用戶體驗上要求越來越互動;第三,面對各種網絡、終端業務環境越來越復雜。
為了保證音視頻體驗質量,我們有3個利器:第一,針對不同業務場景,構建“先監控再診斷后提升”的體驗質量體系;第二,基于“數據湖+數據服務”解決用戶差異性和市場不確定性的問題;第三,在實施過程中要平衡成本和體驗的關系。
對未來音視頻業務體驗我們有三點規劃方向:一是持續基于端、邊、云數據協同來驅動QoE、QoS、QoC優化;二是構建音視頻內容質量的智能評估體系;三是建立第三代XR音視頻體驗質量規范,如沉浸感等。
以上是本次分享的全部內容,謝謝大家。
原文標題:云原生時代——華為云音視頻質量監控與優化實踐
文章出處:【微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
視頻
+關注
關注
6文章
1956瀏覽量
73058 -
華為
+關注
關注
216文章
34528瀏覽量
252573 -
云原生
+關注
關注
0文章
252瀏覽量
7968
原文標題:云原生時代——華為云音視頻質量監控與優化實踐
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論