【问题标题】:wav vs opus: speech-to-text transcript qualitywav vs opus:语音到文本的转录质量
【发布时间】:2016-05-04 05:03:19
【问题描述】:

我正在使用 IBM Watson 的语音到文本服务来为几个电话音频文件 (8kHz) 生成脚本。我已经尝试过相同文件的 wav 和 opus 版本。在使用 opus 格式时,我没有看到成绩单质量有任何重大下降。我正在考虑仅存储文件的 opus 格式以减少存储空间需求并减少文件传输时间。一般来说,使用 wav 格式获得更高质量的成绩单会更好吗?如果我们使用 opus 格式,是否存在已知的转录质量下降?

【问题讨论】:

    标签: speech-recognition ibm-cloud speech-to-text ibm-watson


    【解决方案1】:

    如果比特率足够,OPUS 应该不会降低识别精度。您应该使用不会降低准确性的最低比特率,这可以通过实验确定(尝试不同的比特率并计算字错误率)。

    您也可以使用 FLAC,它是无损的,与未压缩的 wav 相比,它通常提供 5 倍的压缩系数。

    最后,请记住,您不希望采样率高于 16kHz,因为这对识别没有用,并且会大大增加存储空间。

    【讨论】:

      【解决方案2】:

      只有您知道您的用例的需求(现在和未来),因此很难提供直接的答案。话虽如此,我个人认为作品质量非常好。

      以下是一些关于 Opus 编解码器质量的链接,您可能会感兴趣:

      【讨论】:

        猜你喜欢
        • 2018-01-23
        • 2021-04-07
        • 1970-01-01
        • 1970-01-01
        • 2014-12-11
        • 2021-09-15
        • 2010-12-18
        • 2015-02-26
        • 1970-01-01
        相关资源
        最近更新 更多