使用 Watson SDK 执行连续语音转文本答案

【问题标题】：Using the Watson SDK To Do Continuous Speech To Text使用 Watson SDK 执行连续语音转文本
【发布时间】：2018-02-28 16:40:01
【问题描述】：

我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是，我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件（以大约 30 秒的时间块录制音频），因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点？

【问题讨论】：

【解决方案1】：

您需要使用 WebSocket 进行实时转录。您传入一段音频，Watson 会以转录内容进行响应。您只需要检测静音即可将流分成块。

您还需要指定用于转录的语言，当源音频来自电话时，最好使用窄带模型以获得最佳效果。

IBM® 建议您使用宽带模型进行响应，实时应用程序（例如，用于实时语音应用程序）。 Reference.

您可以在link 中查看在 Python 中使用 Python 和 Watson STT 的完整示例。此示例使用 Nexmo，但您可以获取在任何应用程序中使用的逻辑以获取实时记录。

【讨论】：

这是一个使用 python 通过 Websockets 与 Watson STT 对话的完整示例：github.com/watson-developer-cloud/…，有一个函数可以一次将文件中的音频推送到 websocket 上，您可以这样做同样的事情，但是对于来自麦克风的块，可以在这里找到更多示例：github.com/watson-developer-cloud