前言

虽然说目前语音识别,合成这块技术已经很成熟了,没什么可以拓展的地方了,但是还是想自己实现一下在ros下进行语音识别以及熟悉整个流程,感觉还是挺cool的。
目前这块属科大讯飞和百度语音这两公司做的不错,不过还有其他的一些比如:思必驰,捷通华声,云之声,图灵OS等
ros下的语音交互系统,原生态的主要是支持的一个叫cmu sphinx,
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
支持多种语言,英语和德语都是支持的。
比如苹果手机的siri,它主要是Nuance公司来做的,应该是目前语音这块最前端的公司了,
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
还有一个叫festival,它是lincx可以简单实现的一个语音交互系统,它是由爱丁堡大学开源的,测试也很简单
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
还有Ekho(余音)是一个免费、开源的中文语音合成软件。它目前支持粤语、普通话(国语)、广东台山话、诏安客语、藏语、雅言(中国古代通用语)和韩语(试验中),英语则通过eSpeak或Festival间接实现。Ekho支持Linux、Windows和Android平台。
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
介绍完国外的,下面来介绍国内的,国内的语音识别技术如下:
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

NLU以前叫NLP,其实是一个东西,叫做自然语言处理(natural language process)

语音唤醒

百度语音唤醒
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
科大讯飞语音唤醒
语音唤醒(VoiceWakeuper)通过辨别输入的音频中特定的词语(如“讯飞语点”),返回被命中(唤醒)结果,应用通过回调的结果,进行下一步的处理,如点亮屏幕,或与用户进行语音交互等。唤醒资源中含有一个或多个资源,只要命中其中一个,即可唤醒。需下载使用对应的语音唤醒SDK。
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

语音听写主要API调用流程如下图所示:
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
思必驰 收费
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
像如上所述的语音识别方面的公司都提供在线体验功能,感兴趣的可以登录其官网体验一下。效果还是不错的。

语音识别ASR

百度在线语音识别
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
科大讯飞在线语音识别ASR
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
云之声在线识别ASR
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

语义理解

图灵机器人 免费在线使用5000次每天
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
云之声 在线体验
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
科大讯飞 免费在线使用体验
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
捷通华声(灵云在线体验)
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

语音合成TTS

科大讯飞语音合成TTS
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
云之声
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
百度在线语音
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
捷通华声
ROS实战(一) 语音交互系统的学习:初步了解语音交互流程
接下来的教程会逐渐把这些语音交互流程与ros结合起来,并且在ros上实现。比如语音合成啊,语音识别啊,语义理解啊,让机器人也具备语音交互功能。

相关文章: