【问题标题】:What does the google's speech-to-text configuration looks like for an .opus audio file.opus 音频文件的谷歌语音到文本配置是什么样的
【发布时间】:2020-08-06 00:14:51
【问题描述】:

我正在将 .opus 音频文件传递给 google 的语音转文本 api 以进行转录。我正在使用以下配置:

  • 编码 = enums.RecognitionConfig.AudioEncoding.OGG_OPUS
  • language_code = "en-US"
  • sample_rate_hertz = 16000

我收到以下错误:

google.api_core.exceptions.GoogleAPICallError: None Unable to recognize speech, possible error in encoding or channel config. Please correct the config and retry the request.

我尝试了其他编码,如 FLAC 和 LINEAR16,并得到 None 作为输出。

opus 音频文件是否需要额外的配置字段以及配置文件应该是什么样子?

【问题讨论】:

    标签: speech-to-text google-speech-api google-cloud-speech opus google-speech-to-text-api


    【解决方案1】:

    通过谷歌提供的文档和几次尝试后,我找到了解决我遇到的错误的方法。 OGG_OPUS 编码需要对 audio_channel_count 进行显式配置定义。在我的例子中,音频通道是 2,我需要明确定义它。 另外,在多通道的情况下,enable_separate_recognition_per_channel 需要设置为 True。

    对我有用的配置是:

    encoding = enums.RecognitionConfig.AudioEncoding.OGG_OPUS
    config = {
            "audio_channel_count": audio_channel_count,
            "enable_separate_recognition_per_channel": enable_separate_recognition_per_channel,
            "language_code": language_code,
            "sample_rate_hertz": sample_rate_hertz,
            "encoding": encoding
        }
    

    在配置文件中为每个参数使用正确的值非常重要。

    【讨论】:

      猜你喜欢
      • 2020-02-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-05-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多