用弗雷歇距离（Fréchet Distance）进行音质和视质度量

当你能够衡量自己所说的东西，并用数字来说明它，这意味着你对它有较好的了解；反之，则意味你对它并不是真正了解。

————William Thomson在1883年的“电子计量单位”讲座中说

机器学习的科学进步速度通常取决于优质数据集和指标的可用性。在深度学习中，基准数据集（例如ImageNet或Penn Treebank）可促进建立用于图像识别和语言模型的深度人工神经网络。然而，尽管可用的真值数据集很适合作为这些预测任务表现的衡量指标，但标定这些用于和生成模型进行比较的数据并不是那么简单。想象一下一种模型，该模型生成星际争霸系列游戏的视频——如何确定哪种模型最好？显然，下面显示的某些视频看起来比其他视频更真实，但是它们之间的差异可以用什么指标量化吗？获得用于评估生成模型的有力指标对于衡量（取得）音频和视频理解领域的进展至关重要，但是目前尚不存在此类指标。
用弗雷歇距离（Fréchet Distance）进行音质和视质度量
由星际争霸录像数据集中的一组镜头训练出的不同模型上生成的视频

在“Fréchet Audio Distance: A Metric for Evaluating Music Enhancement Algorithms”和“Towards Accurate Generative Models of Video: A New Metric & Challenges”中，我们介绍了两个这样的衡量指标——Fréchet音频距离（FAD）和Fréchet视频距离（FVD）。我们用10000个视频和69000个音频片段成对比较来记录了大规模的计值，用来说明我们的指标与人类感知之间的高度相关性。我们还在github上发布了Fréchet Video Distance和FréchetAudio Distance的源码（https://github.com/google-research/google-research/tree/master/frechet_video_distance）。

Fréchet Distance简介

Fréchet Distance用于衡量两个曲线的相似度，由法国数学家Maurice René Fréchet在1906年提出；后又被描述为遛狗最短狗绳问题。。
用弗雷歇距离（Fréchet Distance）进行音质和视质度量
生成模型的目标是去学习生成与经过训练的样本相似的样本，从而使它知道数据中哪些特性和特征可能出现，哪些不太可能出现。换句话说，生成模型必须学习训练数据的概率分布。在许多情况下，生成模型的目标分布都是很高维的。例如，具有3色通道的128x128像素的单个图像的尺寸大概有50000维，而一个几秒的视频片段可能包含数十（或数百）个这样带音频的帧，可能有16000个样本。为了量化给定模型在一个任务上的成功率去计算如此高维分布之间的距离是非常困难的。以图片来说，我们可以看一些样本来判定视觉质量，但是对每个训练的模型都这样做是不可行的。

此外，生成对抗网络（GANs）倾向于集中于总体目标分布的几种模式，而完全忽略其他模式。比如，GANs可能只学习生成一种类型的对象或选定的几个视角。因此，仅看模型下有限数量的样本可能无法指出网络是否成功学习了整个分布。为了解决这个问题，需要一种与人类对质量的判断非常一致的指标，同时还要考虑目标分布的属性。

解决此问题的一种常见方法是Fréchet Inception Distance（FID）的指标，专门为图像设计。 FID从目标分布和生成模型中获取了大量图像，并使用Inception对象识别网络将每个图像嵌入到含有重要特征的低维空间中。然后，它计算这些样本之间的Fréchet距离，这是一种计算分布之间距离的常用方法，可以定量地衡量两个分布实际的相似程度。
用弗雷歇距离（Fréchet Distance）进行音质和视质度量
这两个指标的关键组成部分是预先训练的模型，该模型将视频或音频剪辑转换为N维嵌入。

Fréchet Audio Distance和Fréchet Video Distance
基于已成功应用于图像领域的FID原理，我们提出了Fréchet视频距离（FVD）和Fréchet音频距离（FAD）。与流行的评价指标（如峰值信噪比或结构相似性指标）不同，FVD会完整地查看视频，从而避免了逐帧指标的缺点。
用弗雷歇距离（Fréchet Distance）进行音质和视质度量
机械臂视频示例，新的FVD指标评价。发现FVD值约为2000、1000、600、400、300和150（从左到右；从上到下）。显然FVD值越小，视频质量越高。

在音频领域中，现有指标要么需要时序一致的标准值信号（如源失真比：SDR），要么仅针对特定范围（如对话质量）。而FAD是不做限制的，可用于任何类型的音频。

下面是音频嵌入矢量的二维可视化图，我们可以从中计算出FAD。每个点都对应于一个5秒钟音频片段的低维嵌入，其中蓝色点来自纯音乐，其他点代表已经以某种方式失真的音频。估算的多元高斯分布表现为同心椭圆。随着失真幅度的增加，其分布与纯净音频分布之间的重叠减少。这些分布之间的距离就是Fréchet distance的测量值。
用弗雷歇距离（Fréchet Distance）进行音质和视质度量
在动画中，我们可以看到，随着失真幅度的增加，失真音频的高斯分布与纯净音频分布的重叠减少。其分离度就是Fréchet distance的测量值。

评估
FAD和FVD密切跟踪人类的判断很重要，因为这是所见所闻“真实”的黄金标准。因此，我们进行了一项大规模的研究，以确定我们的新指标与人类对生成的音频和视频的定性判断的一致性。在这项研究中，评估人员测试了10000个视频对和69000个5秒音频片段。对于FAD，我们要求评估人员比较两种不同失真对同一音频片段的影响，同时将他们比较的一对失真和它们出现的顺序随机化。评估者被问到“哪个音频片段听起来最像录音棚录制的？”，然后使用Plackett-Luce模型对收集的成对评估集合进行排序，该模型为每个参数配置评估一个有价值的值。将其与FAD进行比较，显示FAD与人类判断有很好的相关性。
用弗雷歇距离（Fréchet Distance）进行音质和视质度量
该图将纯净的背景音乐与通过多种方法失真的音乐（如音高降低，高斯噪声等）之间计算出的FAD与人类评估得出的相关值进行了比较。每种类型的失真都有两个数据点，分别代表所应用失真的高低极限。例如，量化失真（紫色圆圈）会将音频限制为每个采样的特定位数，其中两个数据点代表两种不同的比特率。评估人员和FAD都为较低的比特率量化分配了较高的值。总体来说log FAD与人的判断较为一致——如果完美的话将拟合为一条直线。

结论
我们目前在生成模型方面取得了很大的进步。FAD和FVD将帮助我们保持进展可被度量，并有望引导我们改进音频和视频生成的模型。