【问题标题】:Speech-to-text large audio files [Microsoft Speech API]语音到文本的大型音频文件 [Microsoft Speech API]
【发布时间】:2018-11-20 15:03:41
【问题描述】:

使用 Microsoft Speech API 转录中/大型音频文件(每个文件约 6-10 分钟)的最佳方式是什么?诸如批量音频文件转录之类的东西?

我已使用https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample 中提供的代码来连续转录语音,但它会在某些时候停止转录。转录有什么限制吗?我只使用免费试用帐户 atm。

顺便说一句,我认为必应语音 API 和新的语音服务 API 之间没有区别,对吧?

谢谢大家!

【问题讨论】:

  • 你能说说你是怎么实现的吗?
  • 你能分享你的代码@Blue482吗?我想看看:-)

标签: speech-recognition speech-to-text microsoft-cognitive bing-api microsoft-speech-api


【解决方案1】:

感谢您的反馈。

我同意示例(以及您正在查看的文档)不是很清楚,我们会尽快更新。

示例使用了 RecognizeAsync,它应该被称为 RecognizeOnceAsync。它目前只是试图从服务返回 FIRST FinalResult。您应该使用 Start/StopRecognizeAsync,并注册以接收 Result 事件。

再次抱歉,这里的文档不好,我们会尽快更新,并且可能会在刷新时重命名 API。

如果您有音频文件,也可以使用批量转录功能。也许这有帮助? https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription

干杯沃尔夫冈

【讨论】:

【解决方案2】:

语音服务每月允许 5,000 次交易,在免费试用期间每分钟 20 次,因此由于实时连续识别,您可能在某些时候超过每分钟 20 次的限制。

【讨论】:

  • 不客气,REST API 请求可能包含最多 10 秒的音频,并且总共最多持续 14 秒,并且您的总交易量不能超过每月使用免费套餐的 5 小时,否则您必须升级到付费层。
  • 它可以识别音频文件中所说的任何短语,如果您想通过名称识别扬声器,那么您也必须使用扬声器识别 API,对于时间戳,您实际上可以当转录响应包含 Offset 指定识别短语的偏移量时,请在您这边处理,相对于音频流的开始,Duration 指定此语音短语的持续时间。
  • 您可以将流输入到 Speech to Text API,然后根据返回的每个短语的 OffsetDuration 对音频进行分块,然后将这些分块发送到说话人识别 API 以识别说话者的名字,这样你就可以为每个块取一个名字,把它和转录的短语放在一起,并从中创建一个对话。
  • 是的,您可以离线使用语音识别器类。
  • 是的,已经离线了,直接搜索Windows.Media.SpeechRecognition
猜你喜欢
  • 2014-12-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-09-20
  • 2017-10-29
  • 2023-03-03
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多