2022时政热点事件,2022最新时事新闻热点汇总
2022-11-13
更新时间:2023-01-08 14:23:00作者:51data
虽然AV1的编码速度离理想水平还有差距,但随着rav1e(xiph、Mozilla、Vimeo支持)和SVT-av1 ( Netflix和Intel支持)的大规模部署,这一现状有望迅速取得突破文/Ewout ter Hoeven
译者/约翰
原文:
3359 medium.com/@ ewoutterhoeven/av1-is-ready-for-prime-time-SVT-av1-beats-x265-and-lib vpx-in-iin
3359 medium.com/@ ewoutterhoeven/av1-is-ready-for-prime-time-part-2-decoding-performance-d 342821313
今天,我们将演示SVT-AV1如何以相同的码率更快地提供更高质量的内容。 配合dAV1d的高速AV1解码,AV1编解码器将为全面普及做准备。
第1部分:除了质量免费和开源外,AV1的最大优点是可以在相同的码率下实现更高的质量。 rav1e开发人员是否已经构建了一种称为AreWeCompressedYet的用于比较优秀视频质量的工具? 提出了libvpx、x265、SVT-AV1编码器的执行代码。 其中前两个应用了现阶段最广泛的高质量代码。
在x轴上,码率用每像素的位数表示。 因此,0.02意味着每像素平均花费0.02位,0.1意味着每像素平均花费0.1位。 例如,对于1080p 30fps的视频,码率分别为1,25mb /秒(平均每像素0.02位)和6,25mb /秒(平均每像素0.1位)。
我们针对x265和libvpx测试了三种情况:最高质量、最低速度( veryslow )和零CPU使用率( cpu-used=0)。) x265 placebo? 这个测试集的质量不好)。 SVT-AV1在下图中使用了Enc-mode 4和Enc-mode 6。 从Enc-mode 8到Enc-mode 0,SVT-AV1使用更快和更慢的模式。
首先是PSNR和MS SSIM。 这两个客观指标可以计算输入视频流和输出视频流之间的数学误差。 在y轴上显示这些值。 值越高表示质量越高。
在PSNR和MS-SSIM指标中,SVT-AV1 Enc-mode 6(绿色)和Enc-mode 4(黄色)均提供了优于x265 )和libvpx (蓝色)的客观质量。
之后,为了更好地评价用户的感知质量,我们继续添加主观指标,更好地体现用户如何体验Netflix开发的视频质量—— VMAF。
SVT-AV1的主观质量比客观质量稍差。 ENC-mode4依然战胜libvpx和x265,但Enc-mode 6稍逊一筹。
第2部分:为了比较速度和速度,启用了几个Google Cloud实例实现了公平的比较。 两个实例都是基于64 GB DDR4的Cascade Lake平台,使用16个vCPU(8)。 8核、16线程的——SVT-AV1在16 GB btw下正常工作。 此设置下的性能必须与配备Ryzen 7 3700X或酷睿i9-9900 k的高端台式机相当。
所有编码器都将使用发行版配置中的GCC 8.3.0进行编译。 我们对两种情况进行了基准测试,一种是表示普通1080p内容的1250帧1080p 8位4:2:0剪辑,另一种是表示高端HDR影片内容的250帧2160p 10位4:2:0剪辑。 每个编码器运行两次,使用最快的执行速度。 以下结果是每秒的帧数。
如您所见,SVT-av1 enc -模式5、enc -模式6和enc -模式7明显快于libvpx和x265。 同样,libaom在快速预设( cpu-used=5)中也非常慢。
归一化后,差异会更加明显。
在8位视频“Sintel”中,Enc-mode 4比libvpx快32%,比x265慢4%。 Enc-mode7在10位视频“Foodmarket”中与基准的差距更大。
第3部分)因此,与libvpx(VP9 )和x265 ) h.265 )相比,我们现在全面了解到SVT-AV1可以同时更快,以相同的码率提供更高的质量。 本节比较不同深度的SVT-AV1编码器模式所需的位数。 我们主要关注MS-SSIM的客观质量和VMAF的主观质量。
Enc-mode 7在Enc-mode 7中,为了使SVT-AV1达到与libvpx相似的MS SSIM (客观)质量,仍然需要3.6 ) )到9.2 )以上的位数。 关于类似的VMAF (主观)质量取决于分辨率,为9.5%~23.4%以上。
与x265相比,结果稍好,在1.6%~10.9%以下位数实现类似的MS-SSIM质量; VMAF需要的位数更少,为10.4%~1.4%。
同时,SVT-AV1比libvpx快6,42倍,比x265快4,68倍。
Enc-mode 6与Enc-mode7相比,减少Enc-mode 6达到类似质量所需的位数约4%~8%; 与x265相比,MS-SSIM的码率目前显著下降;与libvpx相比,码率需要在高一以上。
Enc-mode 6比libvpx快4.60倍,比x265快3.35倍。
Enc-mode 5Enc-mode 5在MS-SSIM指标上击败libvpx达到顶点; 在所有指标中,大多数都优于x265。
Enc-mode 5比libvpx快3.01倍,比x265快2.2倍。
Enc-mode 4Enc-mode 4通过大幅降低两位数的码率优于x265。 平均来说,为了实现同等的PSNR质量,需要20.1%以下的位数。实现同等的MS-SSIM质量需要19.2%以下的位数。实现同等的VMAF质量需要9.2%以下的位数。 同时,Enc-mode4仅比标准慢4%。
另一方面,与libvpx相比增益更小,在实现了相同的PSNR、MS-SSIM、VMAF质量的情况下,平均码率分别下降了8.8%、9.0%、3.1%。 但是,Enc-mode 4可以以32%的较高速度实现相同的质量。
结论SVT-AV1仍在大规模开发中,但基于多核计算机达到了以相同码率实现更快更高质量的效果。 在大多数使用Enc-mode 4的高端计算机上,使用Enc-mode 6或更高版本的中档计算机也可以将视频编码为长达1小时的时间。
该体系结构描述位于SVT-AV1资源库中,还提供了FFmpeg和Gstreamer插件(修补程序)。 编译的64位Windows可执行文件位于AppVeyor中。 此外,介质autobuild_suite还支持SVT-AV1的FFmpeg内部版本和SVT-AV1修补程序。
x86和ARM平台上的AV1解码器性能x86 PC市场上的AV1解码非常成熟。 在过去的几个月中,dav1d添加了许多SSSE3程序集,以实现提高旧CPU(Haswell和Zen之前的版本)上的性能。
通过dav1d 0.5.0,AVX2的性能也达到了提高,图示的结果变得非常快。
谷歌创建了新的解码器libgav1。 主要针对ARM CPU进行了优化。 在x86上进行的快速测试表明,在大多数情况下,即使在单线程性能方面,libgav1也不如dav1d和libaom。
因此,我们不讨论面向x86的libgav1,而是看看dav1d 0.5.0和libaom的比较测试结果。 单线程dav1d的速度在1.5到2.5之间。
可以看到多线程从2.3倍上升到了4.5倍。
ARM目前已成为探索如何在锂电池功耗受限的移动设备的ARMv8平台上启用AV1软件解码并最大限度地发挥其性能的主要领域。 在过去的一年中,我们发现dav1d的性能稳步提高,为提高。 单线程性能提高从30%变为50%。
从发行版开始,多线程的性能在提高上从80%提高到了90%。
现在,让我们来看看新产品如何使——libgav1的单线程仍然比libaom和dav1d慢得多。 它是多线程的,与libaom差不多,但与dav1d明显不同。
回顾dav1d,可以发现对于商用化的CPU,像Snapdragon 410这样的低端CPU在1080p解码方面还面临不少困难。 720p应该非常可能。 如果CPU具有四个高性能内核,诸如Snapdragon 835之类的高端设备可以以超过60 fps的速度执行1080p解码。 虽然这会影响电池寿命,但对于时间帧序列的长短没有什么大不了的。
结论: DAV1d 0.5.0将于本周发布,仍是市场上最快的av1解码器。 添加了SSSE3组件,现在大部分x86 CPU可以执行1080p AV1解码,大部分四核CPU可以使用4K。 对于ARM,低端设备可能为720p,高端设备可能为1080p,但必须考虑功耗对电池的影响。
将来进一步测试编解码器的功耗和电池寿命的关系。
这些AWCY运行: https://beta.arewecompressedyet.com/jobx 265-very slow-limited @ 2019-08-23-cjobvp9- CPU0@ amp; job=SVT-av1-enc-mode-4 @ 2019-10-06
这些效果结果: https://docs.Google.com/spreadsheets/d/1 P3 pjqmkyhirxel6mbqiwtnwmgyhy _ zu w7 _ xad0def4/edit # girel
这些编译和基准测试命令: https://gist.github.com/ew outh/b 908 f 3527 d 630326266 de0d6e 2a 953 FD
运行Ubuntu 18.04 LTS的googlecomputeenginen2- standard-16 ( 16个vCPU,64 GB内存) Cascade Lake实例