導語
AV1 以其出色的壓縮性能,無疑是自 2017 年以來備受關注的新生代視頻編碼標準。業界也相繼對 AV1 進行了一些評測工作,如 Facebook、Netflix 對它的編碼復雜度也從早期的 VP9 的近千倍降到了百倍。為了驗證 AV1 在短視頻上的性能,美圖音視頻團隊自 2018 年 11 月,基于 Top 500 美拍短視頻進行了一次全面的 AV1 性能評估,對標編碼器采用在實際生成環境中使用的主流視頻編碼器 x264、x265、VP9。
本文將詳細介紹整個評估過程,結合實驗數據,綜合評價 AV1 在短視頻上的性能表現。
AV1 在實驗中的表現
在對本文進行闡述前,我們先來看看 AV1 的綜合表現,評估結果表明,AV1 的壓縮效率優勢明顯,但是編碼耗時仍相對較長:
相比于 x264 high profile、x265 main profile 及 VP9 ,AV1 在相同質量下分別能獲得 36.0%、26.9%、31.8% 的碼率增益。并且,隨著視頻分辨率的增加,AV1 的碼率增益優勢更加明顯;
在編碼耗時上,AV1 分別是 x264 high profile 的 395 倍、x265 main profile 的 36 倍、VP9 的 156 倍。
研究背景
AV1(全稱,AOMedia Video 1)無疑是自 2017 年以來備受關注的新生代視頻編碼標準,原因在于它的高壓縮性能。經業界測試數據表明,如莫斯科國立大學(MSU)、Facebook、Netflix 均進行了相關實驗,都證實了 AV1 已超越 H.265 和 VP9,成為目前壓縮率最高的視頻編碼標準。然而,它的高復雜度也曾令人震驚,數據表明 2018 年初,相比于 VP9 編碼器點播速度檔,AOM/libaom[1]的編碼時長是 VP9 編碼時長近一千倍。近兩年來,無論是 AV1 的標準制定團隊 AOM,還是其他廠商,如 Intel,都致力于優化 AV1 的速度性能,近日,有相關數據表明 AV1 已接近使用水平[2]。
在軟硬件的支持性方面,越來越多的軟件或平臺開始支持 AV1 視頻播放,如 Mozilla 的 Firefox 瀏覽器,Chromium 瀏覽器內核,微軟Windows 10 平臺,以及 Android Q 系統;谷歌、英特爾、ARM、高通、三星、索尼等頭部硬件廠商也紛紛加入到硬件解碼器的研發隊列中,可以預見移動端 AV1 硬解支持將在 2020 年迅速普及[3]。
針對 AV1 進行全面的編碼性能評估實驗
在 AV1 的浪潮來臨之際,我們針對美拍 Top 500 及頭部達人的視頻,采用 2018 年 v1.0.0 版本 libaom 對 AV1 的壓縮效率及編碼復雜度進行了一次全面的編碼性能評估實驗。實驗對標的編碼器選用在實際生成環境中使用的主流視頻編碼器 x264、x265、VP9,質量評價指標采用 PSNR、SSIM 及 VMAF-Phone 模型。
視頻測試序列的選擇
測試序列取自美拍 Top 500 及來自頭部達人的熱門、優質視頻,實際參與評估實驗的視頻有 523 個,這些視頻具有以下特點:
大部分是手機拍攝的視頻,包括照片視頻、手機錄屏的視頻、官方制作發布的視頻;
壓縮后的視頻;
大部分是 SD/HD(480p/540p/720p),而不是官方測試機構常用的 UHD/4K、8K;
大部分視頻幀率都是 30 fps;
大部分視頻寬幅比都是 16:9;
大部分視頻處于 10s~60s 之間。
視頻測試序列的復雜度分析
一個編碼器的壓縮效率與視頻內容息息相關,因此在進行編碼器評估工作之前,我們先對每個視頻進行了復雜度分析。依據 ITU-T 主觀質量評價標準《ITU-T P.910》[4]所描述的方法,我們通過對每個視頻計算最大空間復雜度信息 (SI) 、最大時間復雜度信息 (TI) 來描述測試序列的復雜度。由于某些視頻中存在大量場景切換,因此我們還計算了平均 SI、TI 來綜合衡量序列復雜度。
圖1、圖2 分別展示了 Top 500 美拍視頻(前 6s)的 SI-TI 分布情況。結果表明,我們的大部分視頻處于40≤SI≤90,TI≤40,對應于 ITU-T 主觀質量評價標準《ITU-T P.910》中的 A(One person, mainly head and shoulders, limited detail and motion)、B(One person with graphics and/or more detail)、C類(More than one person),該數據結果與美拍的業務場景也十分契合。
圖 1 Top 500 美拍視頻 SI-TI(max) 散點分布圖
圖 2 Top 500 美拍視頻 SI-TI (average) 散點分布圖
編碼器的選擇
對于 AV1,我們采用 AOM AV1 提供的參考軟件(AOM/libaom);對于 H.264/AVC、H.265/HEVC、VP9,我們采用 ffmpeg 4.0.2 對應的編碼庫。表1 列出了實驗中使用的編碼器版本。
候選編碼器 | 實現版本 |
x264 | ffmpeg 4.0.2-libx264(最新的commit 303c484ec828ed0d8bfe743500e70314d026c3bd) |
x265 | ffmpeg 4.0.2-libx265(最新版release 2.8) |
VP9 | ffmpeg 4.0.2-libvpx(tag 1.7.0) |
AV1 | aom源碼(commit d14c5bb4f336ef1842046089849dee4a301fbbf0 v1.0.0) |
表 1 實驗中采用的編碼器版本
編碼參數的配置
我們分別基于 CRF、ABR 兩種碼率控制配置下對編碼器性能進行評估。不同編碼器的 CRF 配置見表2,我們取 6 個 CRF 值進行多組編碼,并將 CRF 編碼后得到的碼率作為 2-pass ABR 編碼的目標碼率。
編碼器 | CRF配置 |
X264/X265 | 19,23,27,31,35,39 |
VP9/AV1 | 27,33,39,45,51,57 |
表 2 CRF 配置
具體每個編碼器的配置方案如表 3 所示。
編碼器 | CRF/QP | ABR(pass-1) | ABR(pass-2) |
x264-high |
ffmpeg -i -c:v libx264 -pix_fmt yuv420p -profile:v high -preset veryslow -crf |
ffmpeg -i -c:v libx264 -pix_fmt yuv420p -profile:v high -preset veryslow -b:v |
ffmpeg -i -c:v libx264 -pix_fmt yuv420p -profile:v high -preset veryslow -b:v |
x265-main |
ffmpeg -i -c:v libx265 -pix_fmt yuv420p -profile:v main -preset veryslow -crf |
ffmpeg -i -c:v libx265 -pix_fmt yuv420p -profile:v main -preset veryslow -b:v |
ffmpeg -i -c:v libx265 -pix_fmt yuv420p -profile:v main -preset veryslow -b:v |
VP9 |
ffmpeg -i -c:v libvpx-vp9 -pix_fmt yuv420p -crf |
ffmpeg -i -c:v libvpx-vp9 -pix_fmt yuv420p -speed 1 -b:v |
ffmpeg -i -c:v libvpx-vp9 -pix_fmt yuv420p -speed 1 -b:v |
AV1 |
aomenc --i420 --codec=av1 --cpu-used=1 --width= |
aomenc --i420 --codec=av1 --cpu-used=1 --width= |
aomenc --i420 --codec=av1 --cpu-used=1 --width= |
表 3 編碼器詳細配置
評估結果
我們采用 BD-Rate 來衡量各個編碼器的壓縮效率,復雜度性能則采用編碼時長之間的倍數關系來描述。BD-Rate 是通過對比率失真曲線,計算相同質量下平均的碼率差異來衡量兩種編碼方案的 RD 性能優劣。在評估結果的描述上,我們將從 AV1 的角度出發,計算 AV1相對于其他編碼方案的 BD-Rate 性能。其中,失真的計算維度采用 PSNR、SSIM,另外,針對 1080p 的序列會加入 VMAF-Phone 模型的評價結果。同樣,在對比復雜度性能時,我們也會計算 AV1 相對于其他編碼方案的編碼時間的倍數。以下是具體在 CRF/QP、ABR上的結果。
值得注意的是,短視頻由于其 UGC 居多的特性,其視頻源和近年來被廣泛使用的 VMAF AI 模型使用的 Netflix 視頻源訓練集差異較大,因此原生 VMAF 模型并不能很好地評價短視頻內容的畫質。
CRF/QP 的結果
圖3、圖4 是 CRF/QP 碼率控制方式下,分別以 PSNR、SSIM 為質量評價指標展現的 AV1 相比于 x264 high profile、x265 main profile、libvpx-vp9 在相同質量下節省的碼率。
從 PSNR 的維度來看,AV1 的 BD-Rate 相比于前述的三種編碼器分別平均節省了 35.88%,26.17%,36%。并且,從分辨率維度來看,隨著分辨率的增加,AV1 的碼率增益越大。對比 x264 high profile、x265 main profile 和 VP9,我們可以發現 x265 main 的壓縮效率在各分辨率下都要優于 x264 high profile 和 VP9,在低分辨率下x264 high profile 的壓縮效率略優于 VP9,在大分辨率下 VP9 的壓縮效率逐漸逼近 x265 main profile。
從 SSIM 的維度來看,AV1 的 BD-Rate 分別節省了 35.33%,22.24%,68.52%。需要說明的是,其中 libvpx-vp9 以 SSIM 維度計算的 BD-Rate 并不具有準確的物理意義,因為相比于 AV1,兩條 RD 曲線近乎平行(如圖6~圖9所示),所以無法準確找到同一質量的兩個碼率點進行比較。可以說 BD-Rate 不適用于展現以 SSIM 維度來衡量的 RD 性能,應該加上 BD-PSNR 的統計指標加以驗證。圖6~圖9 是各個分辨率下隨機抽取的一個序列的 RD 曲線。RD 曲線越高,說明率失真性能越好。可以發現在 SSIM 衡量指標下,RD 性能的變化趨勢與 BD-Rate 結果一致,有:AV1 > x265 main profile > x264 high profile > VP9。
同理,BD-Rate 也不適用于展現以 VMAF-Phone 模型來衡量的 RD 性能,圖10 是取自 1080p 下某個視頻序列的 RD 曲線。不難發現,在 VMAF-Phone 畫質損傷衡量指標下,難以很好地區分 x264 high profile、x265 main profile 與 AV1 的孰優孰劣, 而 VP9 的 RD 性能明顯差于其他編碼器。
從編碼復雜度上,如 圖5 所示,AV1 相比于 x264 high profile、x265 main profile、libvpx-vp9 的編碼時間分別為 370.89 倍、44.34 倍、168.88 倍。同時,我們發現在大分辨率視頻上, VP9 在 RD 性能接近 x265 main profile 的情況下,編碼時長降到 x265 main profile 約五分之一。
圖 3 AV1 相對于 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:PSNR 碼控方式:CRF/QP)
圖 4 AV1 相對于 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:SSIM 碼控方式:CRF/QP)
圖 5 AV1 相對于 x264 high profile、x265 main profile、libvpx-vp9 增加的編碼耗時倍數(碼控方式:CRF/QP)
圖 6 360p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)
圖 7 540p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)
圖 8 720p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)
圖 9 1080p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:CRF/QP)
圖 10 1080p 示例視頻 RD 曲線(質量標準:VMAF-Phone model 碼控方式:CRF/QP)
ABR 的結果
圖11、圖12 是 ABR 碼率控制方式下,分別以 PSNR、SSIM 為質量評價指標展現的 AV1 相比于 x264 high profile、x265 main profile、libvpx-vp9 在相同質量下節省的碼率。
從 PSNR 的維度來看,AV1 的性能與 CRF/QP 的結果類似,BD-Rate 相比于前述的三種編碼器分別平均節省了 36.21%,27.64%,27.69%,且 RD 性能的增益優勢也隨分辨率增加而增加。與在 CRF/QP 下不同的是,VP9 的壓縮性能在 ABR 下遠優于 x264 high profile,與 x265 main profile 不相上下,在高分辨率下甚至超越了x265 main profile。
從 SSIM 的維度來看,AV1 的 BD-Rate 分別節省了 32.96%,21.59%,62.35%。同樣地,圖14 ~ 圖17 給出了四個分辨率下示例視頻序列的 RD 曲線來直觀比較各個編碼器的 RD 性能。類似于 CRF/QP 的結果,RD 曲線的排序結果與 BD-Rate 排序結果一致,有:AV1 > x265 main profile > x264 high profile > VP9。
同樣,在以 VMAF-Phone 來衡量畫質時,AV1 與 x264 high profile、x265 main profile 的 RD 性能非常接近,VP9 依然處于劣勢,如圖18 所示。
從編碼復雜度上(如圖13 ),AV1 相比于 x264 high profile、x265 main profile、libvpx-vp9 的編碼時間分別為 420.50 倍,28.69 倍,143.53 倍。
圖 11 AV1 相對于 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:PSNR 碼控方式:ABR)
圖 12 AV1 相對于 x264 high profile、x265 main profile、libvpx-vp9 的 BD-Rate 節省比例(質量標準:SSIM 碼控方式:ABR)
圖 13 AV1 相對于 x264 high profile、x265 main profile、libvpx-vp9 增加的編碼耗時倍數(碼控方式:ABR)
圖 14 360p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)
圖 15 540p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)
圖 16 720p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)
圖 17 1080p 示例視頻 RD 曲線(質量標準:SSIM 碼控方式:ABR)
圖 18 1080p 示例視頻 RD 曲線(質量標準:VMAF-Phone model 碼控方式:ABR)
結論
從 AV1 在短視頻上的評估結果來看,我們可以得到與 Facebook[5]類似的一些結論,比如 AV1 相比于 VP9、x264 high profile 在相同質量下可以節省 30% ~ 40% 的碼率。同時我們還得到了 AV1 相對于 x265 main profile 的表現:在相同質量下大約可以節省 27% 的碼率。而在編碼耗時上,AV1 的速度進步明顯,相比于 Facebook 在 v0.1.0 AV1 上的結果:5869.9x( AV1 vs x264 high profile )、658.5x( AV1 vs VP9),v1.0.0 版本的 AV1 是 x264 high profile 的 395.7 倍、VP9 的 156.2 倍、x265 main profile 的 36.5 倍。
除此之外,我們還發現了 VP9 在短視頻上的一些特性。首先,VP9 在通過 SSIM 及 VMAF 評價時表現較差。其次,VP9 在 ABR 下相對于 CRF 有更好的表現,其壓縮性能與 x265 main profile 接近,但編碼速度卻比后者快了 5 倍。
另外,對編碼器評估工作有如下幾點啟示:
在質量評價工具的選擇上,原生 VMAF-Phone 模型并不能很好地區分各個編碼器在短視頻場景下的畫質。
RD 性能統計指標的選擇上,一種更為準確的方式是結合 BD-Rate、BD-PSNR 共同來衡量。
相信以上結論會引發音視頻領域工程師的一些思考,并推進 AV1 在各自生產線中的使用。
未來規劃
美圖會持續跟進 AV1 在移動端和主流瀏覽器上的解碼支持的成熟度,針對核心用戶的視頻內容率先應用 AV1 編碼,降低用戶觀看高分辨率視頻內容的時間成本,并給用戶帶來更好的畫質體驗。畢竟用戶在觀看 AV1 視頻時,在相同碼率下,將獲得相比 x264、x265 及 VP9 更高的畫質,或者相同質量下降低 30%~40% 的下載時長。另外,我們的編碼器評估工作尚未停止,結合 Intel 近年來相繼開源的 SVT-HEVC、SVT-AV1 編碼器,我們會在后續的工作中加入對 SVT 系列編碼器的評估。
-
視頻
+關注
關注
6文章
1964瀏覽量
73340
原文標題:透過 Top 500 美拍短視頻看 AV1 性能
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
MediaTek攜手愛奇藝共同推動AV1視頻內容發展
MediaTek將攜手愛奇藝共同推動AV1視頻內容的發展
快訊:YouTube可以為支持AV1的8K電視提供8K內容
NVIDIA安培架構RTX 30系列顯卡支持AV1開放視頻格式
智能電視將全面普及AV1視頻解碼
谷歌正向智能電視制造商推廣 AV1視頻編碼格式
在Webex中使用AV1需要什么?
谷歌 YouTube 和 Netflix 未來將支持 AV1 硬件解碼
剖析AV1硬件的采用及未來發展
探究學術界AV1編碼優化技術的進展

FFmpeg獲得NVENC AV1編碼支持
硬解之后,NVIDIA Ada架構GPU新增AV1編碼

評論