确定最佳音频质量答案

【问题标题】：Determining the best audio quality确定最佳音频质量
【发布时间】：2011-02-26 02:16:56
【问题描述】：

如何在同一音频剪辑的音频文件列表中确定最佳音频质量，无需查看音频文件的标题。棘手的部分是所有文件都来自不同的格式和比特率，而所有transcoded 的格式和比特率都相同。如何有效地做到这一点？

【问题讨论】：

你能澄清一下吗？您是否可以查看音频样本本身，但不能查看标题？
@dmazzoni 好吧，所有文件的标题都是相同的，所以它没有帮助。但是，是的，您拥有完整的文件，包括 (en.wikipedia.org/wiki/Pulse-code_modulation)。
您确定“人类可以分辨”部分吗？压缩的音频文件有时（尤其是当比特率不太低时）对某些人来说听起来比原始文件更好。如果你说的是质量上的巨大差异，那就是另一回事了。
@Tomer Vromen 我编辑了我的帖子，在某些情况下我可以清楚地看出音频有问题，但计算机应该会更好。
在转码过程中，音频文件是否被上采样？例如。将 8 位 11kHz 转换为 16 位 44kHz？

【解决方案1】：

此处列出的许多答案都涉及常见的音频测量，例如 THD+N、SNR 等。但是，这些并不总是与人类对音频伪影的听觉密切相关。有损音频压缩技术通常通过增加 THD+N 和 SNR 来发挥作用，但其目的是以人耳难以察觉的方式来实现。更传统的音频测量技术可能会发现某个频段的 SNR 降低，但如果相邻频段的能量如此之大以至于没人会注意到差异，这是否重要？

题为“A Perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation”的研究论文概述了一种算法，该算法根据人耳的听觉模型来量化人耳检测听觉差异的能力。它考虑了与人类感知的音频质量相关的因素。该论文包括一项将他们的算法结果与主观双盲测试进行比较的研究，让您了解他们的模型的工作情况。

我找不到这篇论文的免费副本，但一个像样的大学图书馆应该将它存档。

实现该算法需要一些频域音频信号处理知识。具有 DSP 经验的本科生应该能够实现它。如果您没有参考波形，您可以使用本文中的信息来量化令人反感的伪影的程度。

该算法适用于 PCM 音频，最好是时间对齐的，当然不需要了解文件类型或标题。

【讨论】：

该算法假定参考波形可用，但许多测量不一定需要参考波形并且可以普遍应用。另一种选择是使用每个波形作为试验参考来计算质量测量。产生最大质量差异的波形是最好的。

【解决方案2】：

我不是软件开发人员（我是音频工程师），当您使用 mp3 算法进行压缩时，您听到的是： - 较少的高频：因此您可以检查较高范围的能量损失 - 失真立体声：因此您可以制作中/侧矩阵，并检查侧的 THD - 相位相干性较低：也许您可以使用相关仪进行检查

希望对您有所帮助，这对计算机来说是一项艰巨的任务！

【讨论】：

【解决方案3】：

首先，我不是音频工程师，但我一直在努力与音频压缩保持联系，因为我收藏了大量 mp3，我有一些想法要分享主题。

从人类的角度来看，您正在寻找的最佳音频质量是什么？如果是这样，您就无法通过比较频谱图等“客观手段”来衡量。

如果频谱图很难看，它不一定意味着质量很差。重要的是，是否有人可以通过盲测将编码文件与原始源区分开来。时期。如果您想检查编码音轨的质量，您必须执行a blind ABX test。

LAME（以及所有其他类型的有损 MP3、AAC、AC3、DTS、ATRAC... 压缩机）是所谓的感知编码器。它利用了某些关于人类音频感知的本质。所以，你不能简单地依赖频谱图来评估其质量。

Source

现在，如果您的目标是从客观的方式/角度出发，您可以使用EAQUAL，代表音频质量评估：

这是一个客观的衡量标准用于测量质量的技术编码/解码的音频文件（非常类似于PEAQ）

(...)

结果，但是在使用时客观的测试方法是仍然没有定论，而且大多只是编解码器开发人员使用和研究人员。

...或Friedman statistical analysis tool.

(...) 执行几个统计对数据集进行分析，即特别适合听力测试数据。

我并不是说频谱分析仪没用。这就是我发布一些实用程序的原因。我只是说要小心使用所有这些统计方法：作为 Hydrogenaudio 社区 said once 的某个人，您不会用眼睛听。（请查看我发布的这个帖子，它是一个很好的资源）。要真正从人类的角度证明音频质量，您应该测试耳朵而不是图表。

这是一个复杂的主题，恕我直言，我建议您寻找像 Hydrogenaudio 这样的专业音频社区。p>

【讨论】：

【解决方案4】：

如果我理解正确，您有一堆以不同格式开始、质量不同的音频文件。它们都已转换为相同的格式，因此您无法使用标题来确定哪些最初是高质量的，哪些不是。

这是一个难题。有一些技巧可能会发现一些质量问题，但是检测从 MP3 等低比特率压缩算法转换而来的东西会非常困难。

一些简单的技巧：

检查最大幅度 - 如果它太低，质量就不好。
测量最高频率 - 如果它较低，则原始的采样率可能较低。

【讨论】：

+1 你确实理解这个问题，我同意这很困难。
+1 进行相当简单的测试，以找到可能的低质量指标

【解决方案5】：

如果您有原件，您可以通过估计传递函数来估计它是如何改变的。您将需要假设一些模型，可能从低通滤波器开始，添加一些污点（卷积），然后运行估计器以产生质量度量。您可以在Estimation_theory 上查看维基百科文章

【讨论】：

【解决方案6】：

假设您只是想估计一组参数，我认为 disown 的答案很好。不幸的是，您还必须为您估计的参数定义一个比较函数。

如果两次压缩都应用了具有同样大频率范围的band-pass filter，但其中一个允许的频率高于另一个，会发生什么情况。其中一个更好吗？哪一个？

答案可能取决于您正在使用的文件中更多地使用哪些频率。

客观的衡量标准是查看哪个文件丢失较少entropy。不幸的是，要正确做到这一点并不容易。

【讨论】：

添加纯噪声甚至会增加熵 - 该度量似乎不适用于感知音频质量。

【解决方案7】：

对此我不太确定，但这是一个很好的起点：

http://en.wikipedia.org/wiki/Signal-to-noise_ratio

我认为您不能从一个信号中计算 SNR，但如果您有一组信号，那么您可能能够通过比较所有信号来计算 SNR。

页面底部有一些有趣的链接，如果不可能的话，它们也可以提供一些感兴趣的路线。

另外，我不是音频工程师，但我对信号处理知之甚少，有什么方法可以测量音频信号中的量化电平吗？也许需要调查一下。

【讨论】：

【解决方案8】：

如果您没有原始音频，这可能是很多工作；从绝对意义上来说，这几乎肯定是根本不可能的，因为你无法分辨哪条赛道的特点是故意的，哪个是虚假的。你甚至可能有来自不同录音或混音的编码，在这种情况下，简单的比较在任何情况下都是毫无意义的。

因此，假设您没有拥有原始版本，您可以做的最好的可能是启发式方法 - 这可能会很好地工作，但实施起来需要付出很多努力。

投资一些音频处理软件和技能；使用它来构建软件，以仅根据输出启发式地识别常见的编码器缺陷。这些缺陷可能是声音命中的时间局部性差（建议压缩中的窗口过大）、左右信号之间的高相关性、有限的频率范围等（有经验的人可能会列出几十个）。
以一定的比例对每个启发式的音频质量进行评分。
使用常识和尽可能多的时间和人员进行测试，因为您必须权衡各种因素的相关性。例如，虽然频率再现高达 24Khz 可能很好，但这并不是很重要；另一方面，缺乏锐度可能会更烦人。

如果你幸运的话，有人在你之前完成了这项工作，因为这听起来像是一个昂贵的提议。

【讨论】：

【解决方案9】：

一种新的感知质量测量方法比特率降低音频 http://citeseer.ist.psu.edu/cache/papers/cs/15888/http:zSzzSzwww-ft.ee.tu-berlin.dezSzPublikationenzSzpaperszSzAES1996Copenhagen.pdf/a-new-perceptual-quality.pdf

感知音频编码算法进行极端的无关紧要减少，以实现高编码增益。信号组件被认为是不可感知的未传输和编码噪声是根据光谱形状音频信号的掩蔽阈值。简单的质量测量（例如信号噪声比，谐波失真），这不能分开这些听不见的来自声音错误的人工制品，不能用于评估性能这样的编码器。

用于质量评估感知音频编解码器，适当需要测量算法，检测和评估可听的通过比较输出的人工制品具有未编码参考的编解码器。基于滤波器组的感知模型提出，这会产生更好的时间分辨率比基于 FFT 方法，从而允许更多精确建模前和掩蔽后和精细分析每个过滤器中的包络频道。

另请参阅
http://academic.research.microsoft.com/Paper/201987.aspx?viewType=1

【讨论】：

哇，很高兴看到一些来自微软的可靠研究。