【发布时间】:2018-02-28 16:40:01
【问题描述】:
我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是,我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件(以大约 30 秒的时间块录制音频),因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点?
【问题讨论】:
标签: websocket speech-to-text ibm-watson libwebsockets
我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是,我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件(以大约 30 秒的时间块录制音频),因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点?
【问题讨论】:
标签: websocket speech-to-text ibm-watson libwebsockets
您需要使用 WebSocket 进行实时转录。您传入一段音频,Watson 会以转录内容进行响应。您只需要检测静音即可将流分成块。
您还需要指定用于转录的语言,当源音频来自电话时,最好使用窄带模型以获得最佳效果。
IBM® 建议您使用宽带模型进行响应, 实时应用程序(例如,用于实时语音应用程序)。 Reference.
您可以在link 中查看在 Python 中使用 Python 和 Watson STT 的完整示例。此示例使用 Nexmo,但您可以获取在任何应用程序中使用的逻辑以获取实时记录。
【讨论】: