wav vs opus：语音到文本的转录质量答案

【问题标题】：wav vs opus: speech-to-text transcript qualitywav vs opus：语音到文本的转录质量
【发布时间】：2016-05-04 05:03:19
【问题描述】：

我正在使用 IBM Watson 的语音到文本服务来为几个电话音频文件 (8kHz) 生成脚本。我已经尝试过相同文件的 wav 和 opus 版本。在使用 opus 格式时，我没有看到成绩单质量有任何重大下降。我正在考虑仅存储文件的 opus 格式以减少存储空间需求并减少文件传输时间。一般来说，使用 wav 格式获得更高质量的成绩单会更好吗？如果我们使用 opus 格式，是否存在已知的转录质量下降？

【问题讨论】：

标签： speech-recognition ibm-cloud speech-to-text ibm-watson

【解决方案1】：

如果比特率足够，OPUS 应该不会降低识别精度。您应该使用不会降低准确性的最低比特率，这可以通过实验确定（尝试不同的比特率并计算字错误率）。

您也可以使用 FLAC，它是无损的，与未压缩的 wav 相比，它通常提供 5 倍的压缩系数。

最后，请记住，您不希望采样率高于 16kHz，因为这对识别没有用，并且会大大增加存储空间。

【讨论】：

【解决方案2】：

只有您知道您的用例的需求（现在和未来），因此很难提供直接的答案。话虽如此，我个人认为作品质量非常好。

以下是一些关于 Opus 编解码器质量的链接，您可能会感兴趣：

【讨论】：