【问题标题】:Using the Watson SDK To Do Continuous Speech To Text使用 Watson SDK 执行连续语音转文本
【发布时间】:2018-02-28 16:40:01
【问题描述】:

我之前一直在使用 IBM Watson 语音转文本服务来转录预先录制的完整音频文件。但是,我现在正在尝试在使用说话者识别功能时进行实时转录。这意味着我不能单独发送每个短文件(以大约 30 秒的时间块录制音频),因为必须维护扬声器的上下文。如何在仍然使用 Python 的同时做到这一点?

【问题讨论】:

    标签: websocket speech-to-text ibm-watson libwebsockets


    【解决方案1】:

    您需要使用 WebSocket 进行实时转录。您传入一段音频,Watson 会以转录内容进行响应。您只需要检测静音即可将流分成块。

    您还需要指定用于转录的语言,当源音频来自电话时,最好使用窄带模型以获得最佳效果。

    IBM® 建议您使用宽带模型进行响应, 实时应用程序(例如,用于实时语音应用程序)。 Reference.

    您可以在link 中查看在 Python 中使用 Python 和 Watson STT 的完整示例。此示例使用 Nexmo,但您可以获取在任何应用程序中使用的逻辑以获取实时记录。

    【讨论】:

    猜你喜欢
    • 2018-04-08
    • 2019-04-22
    • 1970-01-01
    • 2019-06-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多