【问题标题】:android : speech recognition what are the technologies availableandroid:语音识别有哪些可用的技术
【发布时间】:2012-04-30 16:43:27
【问题描述】:

我是安卓“语音识别”领域的新手。

我的应用要求具有“语音识别”功能。所以我正在做我的功课。 我找到 1. android SDK对此有支持,它使用了“谷歌语音识别” 因此,根据我对天气的了解,我们通过意图调用识别器,或者我们使用类 SpeechRecogniser ,实际识别是在谷歌云服务器上完成的。 我尝试了使用这两种方法的示例应用程序,两种情况下的匹配率都非常低\ (首先我的发现对吗?我尝试的大多数单词/句子都没有得到正确的匹配)。

  1. 这两种方法的输出是否会有任何差异,即按意图启动/或使用 SpeechRecogniser 类)

  2. 所有应用程序都依赖于这种谷歌技术,其中语音作为声音字节发送并在云服务器上识别。我看到 Shazam 使用了不同的技术,但他们有自己的数据库。是否使用了任何其他此类技术

  3. 我看到很多“siri for android”。关于这些应用程序如何实际工作的任何说明?

非常感谢您的时间和帮助。

【问题讨论】:

    标签: android speech-recognition


    【解决方案1】:

    1) 使用RecognizerIntentSpeechRecognizer 时,您将获得相同的结果。主要区别在于用户交互。 RecognizerIntent 强制用户通过标准语音识别程序。使用SpeechRecognizer,您可以控制应用程序收集语音的方式以及处理时间。 RecognizerIntent 的优点是易于编程和用户熟悉。使用SpeechRecognizer,您可以实现高级功能,例如在后台收听语音。您还可以获得更好的错误报告。

    此外,有些单词对于识别器来说很容易理解,比如“apple”,但有些单词因为各种原因很难像“cumin”。您必须巧妙地匹配谷歌返回的内容以实现可靠的东西。

    2)我不确定您所说的他们自己的数据库是什么意思。您的应用将有一个“数据库”,您尝试将其与用户所说的内容进行匹配

    3) 可能是自然语言处理、用户建模、模拟人类对话的技术的混合。或者它们只是一大堆手工编码的规则,让它们看起来很聪明。我猜想尝试使某些事情变得可信需要做很多工作。

    在此处查看我的一些示例代码: https://github.com/gmilette/Say-the-Magic-Word-

    【讨论】:

    • 非常感谢您的回答。关于第 2 点,shazam 为其支持的所有歌曲都有一个数据库,每首歌曲都有所有可能的“指纹”。它的声音真的很大。关于第 3 点,我的阅读内容是 Siri 的主要技术是人工智能。只有有效利用人工智能,才有可能实现语音识别
    • 更正:你不需要人工智能来使用语音识别。您需要 AI 来尝试实现与用户对话的应用程序。
    【解决方案2】:

    【讨论】:

    • 感谢您的回答。但它确实没有回答我的问题。
    猜你喜欢
    • 2010-09-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-09-25
    • 1970-01-01
    • 1970-01-01
    • 2010-09-05
    相关资源
    最近更新 更多