【问题标题】:Twilio and Nuance ASR possibilityTwilio 和 Nuance ASR 的可能性
【发布时间】:2016-10-06 05:50:45
【问题描述】:

有人有使用 twilio 和 Nuance ASR (https://developer.nuance.com/public/index.php?task=memberServices) 创建语音识别应用程序的经验吗?\

我认为时间滞后不会使其可行。例如,如果我要提示用户说些什么,让 Nuance 识别它并将转录内容返回给我,然后我在我的系统中查找进一步的操作,这将花费太长时间。

  1. 从用户那里捕获音频,
  2. 从 twilio 获取录音 url,
  3. 并将音频文件传递给 nuance
  4. 然后从细微差别中获取转录
  5. 将单词与我的数据进行匹配
  6. 采取适当的措施

这一切都应该很快发生,但它是否足够快以被调用者接受?

任何想法都会很棒 谢谢

ps。我尝试创建标签 Nuance,但不允许

【问题讨论】:

    标签: twilio speech-recognition naturallyspeaking


    【解决方案1】:

    我目前正在开发提供实时翻译的通信平台,并且我正在使用 Twilio 作为我们自动化的平台提供商。翻译语音通话功能。 Nuance 的 ASR 技术至少可以说是平均水平,绝对不能用于低频段音频。查看 Google Cloud Speech API。我用它取得了很好的成绩。 ASR 大约需要 3-5 秒。

    【讨论】:

    • 谢谢,您在处理结果所需的 3-5 秒内做什么?你会播放某种保持音或音乐吗?
    【解决方案2】:

    Nuance Recognizer 确实适用于低频段音频 - 实际上它是为在电话环境中使用而设计的 - 之前的评论是不正确的。但是,问题在于及时将音频流从 Twilio 返回到识别器以进行部分识别。通常 Nuance 识别器使用 MRCP 与 IVR 平台集成,但我认为 Twilio 不支持此协议。因此,如果使用第三方引擎,您可能必须记录该短语,然后将其提交(传输)到您的 ASR 实例,处理响应并将结果发送回 Twilio - 这会导致延迟,因为 ASR 引擎无法处理部分声音的。问题的简单示例 - 如果有人说话 10 秒,则结果在 10 秒(录音时间)+ 传输时间 + 处理时间 + 返回 Twilio 的时间后不会返回到 Twilio。

    【讨论】:

      【解决方案3】:

      我知道这是个老问题,但这个问题仍然出现在twilio asr 的谷歌搜索结果的第一页。

      这是一个无耻的插件,但我们公司 Voicegain 开发了一个识别器,其工作方式非常类似于 Nunance ASR(例如采用 GRXML 语法),并且还提供了 Twilio Media Streams 集成,可以轻松用作 Twilio 的 ASR。与在 Twilio 中使用 Google STT 相比的优势在于,我们的识别器本身使用语法,因此在特定用例上准确度可能比 Google STT 高得多,而且我们的识别器支持完全超时,即它知道语法匹配并将从较长的不完整超时切换到较短的完整超时。

      请看这里:www.voicegain.ai/post/announcing-twilio-twiml-connect-stream-support

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-07-07
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-05-10
        • 1970-01-01
        相关资源
        最近更新 更多