语音到文本的大型音频文件 [Microsoft Speech API]答案

【问题标题】：Speech-to-text large audio files [Microsoft Speech API]语音到文本的大型音频文件 [Microsoft Speech API]
【发布时间】：2018-11-20 15:03:41
【问题描述】：

使用 Microsoft Speech API 转录中/大型音频文件（每个文件约 6-10 分钟）的最佳方式是什么？诸如批量音频文件转录之类的东西？

我已使用https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample 中提供的代码来连续转录语音，但它会在某些时候停止转录。转录有什么限制吗？我只使用免费试用帐户 atm。

顺便说一句，我认为必应语音 API 和新的语音服务 API 之间没有区别，对吧？

谢谢大家！

【问题讨论】：

【解决方案1】：

感谢您的反馈。

我同意示例（以及您正在查看的文档）不是很清楚，我们会尽快更新。

示例使用了 RecognizeAsync，它应该被称为 RecognizeOnceAsync。它目前只是试图从服务返回 FIRST FinalResult。您应该使用 Start/StopRecognizeAsync，并注册以接收 Result 事件。

再次抱歉，这里的文档不好，我们会尽快更新，并且可能会在刷新时重命名 API。

干杯沃尔夫冈

【讨论】：

感谢 Wolfgane！我已经整理好了:)。您想回答或评论我的另一个问题：stackoverflow.com/questions/50822466/… 吗？非常感谢！

【解决方案2】：

语音服务每月允许 5,000 次交易，在免费试用期间每分钟 20 次，因此由于实时连续识别，您可能在某些时候超过每分钟 20 次的限制。

【讨论】：

不客气，REST API 请求可能包含最多 10 秒的音频，并且总共最多持续 14 秒，并且您的总交易量不能超过每月使用免费套餐的 5 小时，否则您必须升级到付费层。
它可以识别音频文件中所说的任何短语，如果您想通过名称识别扬声器，那么您也必须使用扬声器识别 API，对于时间戳，您实际上可以当转录响应包含 Offset 指定识别短语的偏移量时，请在您这边处理，相对于音频流的开始，Duration 指定此语音短语的持续时间。
您可以将流输入到 Speech to Text API，然后根据返回的每个短语的 Offset 和 Duration 对音频进行分块，然后将这些分块发送到说话人识别 API 以识别说话者的名字，这样你就可以为每个块取一个名字，把它和转录的短语放在一起，并从中创建一个对话。
是的，您可以离线使用语音识别器类。
是的，已经离线了，直接搜索Windows.Media.SpeechRecognition