2017年12月1日
By 1月时特约编辑
专题文章

如何选择和使用客观的视频质量基准

不管你知不知道, 您观看的许多视频都是使用视频质量指标配置的. 哦，你不同意? 你最近看Netflix了吗? 在过去的两年左右, Netflix的编码阶梯是由该公司的视频多方法评估融合(VMAF)指标驱动的, 在那之前, 峰值信噪比(PSNR). 不是Netflix的客户? 嗯，YouTube怎么样? YouTube使用基于恒速率因子编码的神经网络, 它本身是由内部视频质量指标驱动的.

简单的说, 视频质量指标试图预测一个主观的观众会如何评价一个特定的视频, 相对而言，这些指标是基于这些预测的准确性来评估的. 当然, 有许多纯粹主义者坚持认为主观比较是衡量质量的唯一有效方法, 事实上, 适当管理的主观测试是黄金标准.

然而, 考虑到每分钟有400个小时的视频上传到YouTube上, 您可以理解，该服务强烈需要尽可能高效地对其流进行编码，并且完全无法部署人员来实现这一点. 甚至Netflix, 以相对微不足道的1,2017年的新内容达到了5000小时, 不能用人眼为每个视频创建自定义的编码阶梯. 对于这两家公司和许多其他公司来说，客观的质量度量是必不可少的.

底线是，如果您负责组织的编码, 而且你并没有以这样或那样的形式使用客观视频质量指标, 你落后了. 幸运的是，你也在正确的地方. 在本文中, 我将概述视频质量指标是什么以及它们是如何工作的, 向您介绍应用它们的最常用工具, 并告诉您如何选择最适合您需求的度量和工具.

什么是度量标准(以及如何度量)

你可能听说过PSNR这样的指标, 结构相似指数(SSIM), 甚至可能是Netflix的VMAF. 要理解它们的不同之处，了解它们是如何产生的以及它们的衡量标准是很有用的.

偏差指标

第一类指标是基于错误的. 他们将压缩图像与原始图像进行比较，并创建一个分数，以数学方式表示两幅图像之间的差异, 也叫噪音或错误. PSNR就是一个很好的例子. 基于这种方法的度量简单且易于计算, 但分数往往与主观评分不太相关，因为人眼感知错误的方式不同.

举个例子, 我曾经测试过一个编码工具, 输出文件的PSNR分数很低. 我把压缩视频播放了几次，不明白为什么. 然后，我将编码后的图像与原始图像进行了比较，发现轻微的颜色偏移导致了较低的分数. 在实时回放过程中无需对原件进行比较, 没有观众会注意到这种变化, 在这种情况下, PSNR不能很好地预测主观表现.

为什么公司, 包括Netflix和Mozilla(与AV1编解码器有关), 继续发布PSNR结果? 首先，因为它是最著名的指标，所以分数很容易理解. 第二个, 尽管年代久远, PSNR继续在许多情况下提供非常有用的数据, 其中一些我将在下面讨论.

PERCEPTUAL-BASED模型

在高水平上, 像SSIM这样的基于感知的模型试图将人类如何感知错误纳入其中, 或者“人类视觉系统模型”,来更准确地预测人类对视频的实际评价. 例如, 根据维基百科, 而PSNR估计绝对误差, “SSIM是一种基于感知的模型，它将图像退化视为结构信息的感知变化, 同时也包含了重要的感知现象, 包括亮度掩蔽和对比度掩蔽术语.换句话说, 基于感知的度量标准衡量错误，并试图用数学模型来模拟人类是如何感知错误的.

基于感知的模型范围从简单的, 像SSIM, 变得非常复杂, 比如SSIMWave的SSIMPLUS指标, 或泰克(Tektronix)的图像质量评级(PQR)和注意力加权平均意见差异评分(ADMOS). 所有这三个评级都可以将显示类型合并到评分中, 包括尺寸等因素, 亮度, 观看距离, 哪些因素会明显影响错误的感知.

ADMOS还提供了注意力权重, 在观看视频时，哪个帧区域的质量优先. So, 屏幕中央模糊的脸比边缘模糊的脸更能降低分数, 而纯粹基于错误的模型可能会对它们进行相同的评级.

虽然这些指标需要数年的研究, 试错法, 通过测试来确定, 在一天结束的时候, 它们只是比较两个视频的数学公式, 计算数字, 然后输出结果. 它们不会随着时间的推移而“学习”，就像下一类指标一样. 除了, 取决于度规, 它们可能会也可能不会将时间重放质量纳入评估.

类似的, 大多数这些指标是在比较全分辨率压缩帧和全分辨率原始帧时开发的. 编码阶梯的发明, 以及与之相关的决定, 创建一种新的分析类型. 例如, 在为1080p源视频创建编码阶梯时, 你可以比较一下这两个的质量.5Mbps的流，一个540p，另一个720p. All metrics can compute scores for both alternatives; you simply scale each video up to 1080p and compare it to the source. 但是这些旧的度量标准很少是为这种分析而设计的. (稍后会详细介绍.)

机器学习和度量融合

指标的最后一类涉及机器学习的概念，在图1 摘自泰克公司关于TekMOS的演示，TekMOS是该公司的新质量度量标准. 短暂的, MOS代表平均意见得分, 或者是一轮主观测试的结果, 通常使用从1(不可接受)到5(优秀)的评级。.

图1. TekMOS度量和机器学习

在训练模式下, 图中显示的是哪个, 度量将每一帧转换为一组数值数据点, 表示多个值，如亮度, 对比, 诸如此类. 然后将这些值与/ 2进行比较,000帧的MOS分数来自实际的主观评价, 这样它就能“学习”产生好坏主观MOS分数的价值观. 测量模式, TekMOS从这两家公司吸取了教训,000 - +试验, 从它正在分析的帧中输入数值数据点, 并输出MOS分数.

与上面讨论的指标一样，机器学习算法从数学模型开始. 然而, 它将结果与主观的MOS分数训练进行比较，并对模型进行微调，使其随着时间的推移而改进. +, 机器学习本身是可以调整的, 所以一个模型可以代表动画, 另一个体育, 等等......。, 允许组织培训与他们最相关的视频指标.

Netflix的VMAF是另一个可以训练的指标，使用的是所谓的支持向量机. 因为VMAF的主要用途是帮助Netflix为其每个标题编码生成编码阶梯, Netflix训练数据集包括分辨率从384x288到1080p的片段，数据速率从375Kbps到20Mbps. 再一次。, 通过将数学结果与主观MOS分数相关联, VMAF在制造540p vs方面做得更好. 上文提到的720p决定.

顾名思义, VMAF是三个指标的融合, 两个用来测量图像质量，一个用来测量时间质量, 使其成为真正的“视频”指标. 类似的, 泰克的TekMOS指标包括一个时间衰减滤波器，有助于使评分更准确的视频. TekMOS还具有VMAF目前所缺乏的感兴趣区域滤波器. VMAF的一个巨大好处是，Netflix选择将该指标开源, 使其在多个平台上可用, 你将在下面了解更多.

哪个度量是最好的??

如果没有下图所示的散点图，任何关于参数的文章都是不完整的图2，从 Netflix关于VMAF的博客文章. 左边的散点图比较了VMAF分数(左轴)和实际MOS分数(下轴)。. 右图显示的是另一个名为PSNRHVS的指标.

图2. 比较指标的散点图

如果分数完全一致, 它们都可以直接放在红色对角线上, 虽然, 当然, 这永远不会发生. 仍然, 越接近终点线, 线周围的图案越紧, 这个指标越能准确地预测人类的主观得分. 在这种情况下，图2告诉我们VMAF是一个更好的度量.

有趣的是，每次发布一个指标, 它附带了一个散点图，就像左边所示的那样. SSIMPLUS有一个，TekMOS有一个，泰克的老指标PQR和ADMOS也有. 这并不是要怀疑他们的任何结果, 而是观察到所有这些指标都是高度功能性的，并且通常比PSNR更准确地与主观评分相关联.

然而，准确度并不是选择度量时要考虑的唯一因素. 让我们来探索一下其他的一些.

引用和. Non-Referential

指标之间的一个关键区别是参考指标和. non-referential. 参考度量标准将编码文件与原始文件进行比较，以度量质量, 而非引用度量只分析编码文件. 在一般情况下, 参考指标被认为更准确, 但显然可以在更有限的情况下使用，因为源文件必须可用.

非引用度量可以应用于压缩文件所在的任何地方. 举个例子, TekMOS包含在泰克Aurora平台中, 一个可以评估视觉质量的自动质量控制包, 法规遵从性, 包装的完整性, 还有其他错误. Telestream子公司IneoQuest开发了iQ MOS, 一种非参考度量，可以为公司的Inspector产品线中的多个流提供实时质量评估.

所以在选择度规的时候, 请记住，它可能在您真正想要使用它的地方不可用. 参考指标通常用于编码发生的地方, 非参考指标可以应用于视频点播(VOD)文件存在的任何地方, 或者在哪里可以访问实时流.

度量窃窃私语

当选择度量时, 准确理解分数代表什么和不代表什么是很重要的. 例如, 使用SSIMPLUS度量, 哪个是从1到100, 在80-100分之间的分数预示着一个主观的观众会将视频评为优秀. 这些主观评分以20分的增量分为好、一般、差和坏. 大多数基于mos的指标, 包括TekMOS, 像他们的主观对手一样得分, 1-5分, 5分是最好的，1分是不可接受的. 这种类型的评分使结果非常容易理解和交流.

下一个页面