Twilio 和 Nuance ASR 的可能性答案

【问题标题】：Twilio and Nuance ASR possibilityTwilio 和 Nuance ASR 的可能性
【发布时间】：2016-10-06 05:50:45
【问题描述】：

有人有使用 twilio 和 Nuance ASR (https://developer.nuance.com/public/index.php?task=memberServices) 创建语音识别应用程序的经验吗？\

我认为时间滞后不会使其可行。例如，如果我要提示用户说些什么，让 Nuance 识别它并将转录内容返回给我，然后我在我的系统中查找进一步的操作，这将花费太长时间。

从用户那里捕获音频，
从 twilio 获取录音 url，
并将音频文件传递给 nuance
然后从细微差别中获取转录
将单词与我的数据进行匹配
采取适当的措施

这一切都应该很快发生，但它是否足够快以被调用者接受？

任何想法都会很棒谢谢

ps。我尝试创建标签 Nuance，但不允许

【问题讨论】：

标签： twilio speech-recognition naturallyspeaking

【解决方案1】：

我目前正在开发提供实时翻译的通信平台，并且我正在使用 Twilio 作为我们自动化的平台提供商。翻译语音通话功能。 Nuance 的 ASR 技术至少可以说是平均水平，绝对不能用于低频段音频。查看 Google Cloud Speech API。我用它取得了很好的成绩。 ASR 大约需要 3-5 秒。

【讨论】：

谢谢，您在处理结果所需的 3-5 秒内做什么？你会播放某种保持音或音乐吗？

【解决方案2】：

Nuance Recognizer 确实适用于低频段音频 - 实际上它是为在电话环境中使用而设计的 - 之前的评论是不正确的。但是，问题在于及时将音频流从 Twilio 返回到识别器以进行部分识别。通常 Nuance 识别器使用 MRCP 与 IVR 平台集成，但我认为 Twilio 不支持此协议。因此，如果使用第三方引擎，您可能必须记录该短语，然后将其提交（传输）到您的 ASR 实例，处理响应并将结果发送回 Twilio - 这会导致延迟，因为 ASR 引擎无法处理部分声音的。问题的简单示例 - 如果有人说话 10 秒，则结果在 10 秒（录音时间）+ 传输时间 + 处理时间 + 返回 Twilio 的时间后不会返回到 Twilio。

【讨论】：

【解决方案3】：

我知道这是个老问题，但这个问题仍然出现在twilio asr 的谷歌搜索结果的第一页。

这是一个无耻的插件，但我们公司 Voicegain 开发了一个识别器，其工作方式非常类似于 Nunance ASR（例如采用 GRXML 语法），并且还提供了 Twilio Media Streams 集成，可以轻松用作 Twilio 的 ASR。与在 Twilio 中使用 Google STT 相比的优势在于，我们的识别器本身使用语法，因此在特定用例上准确度可能比 Google STT 高得多，而且我们的识别器支持完全超时，即它知道语法匹配并将从较长的不完整超时切换到较短的完整超时。

请看这里：www.voicegain.ai/post/announcing-twilio-twiml-connect-stream-support

【讨论】：