elesos
识别结果对比: http://download.csdn.net/download/elesos/10138377

 

 

百度

REST API
格式:推荐pcm
推荐16K
编码:16bit 位深的声道
最长支持60s的录音文件
http://ai.baidu.com/docs#/Auth/topAipSpeech.php的使用方法
tts:语音合成
如果不使用raw方式,而是使用json方式:
(speech, len) 及 (url, callback) 这两组参数必须二选一
异步的返回值
{"err_msg":"success. ","err_no":0,"sn":"396863495271511838506"}
异步的结果会返回到一个回调地址里,需要将数据存储才能看到
这个很慢,且不稳定

搜狗的
SDK适用于Android和iOS平台

讯飞的,可以在线测试

腾讯 的
还在申请中
阿里的
提供如下三种服务:
「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
「 录音文件识别 」:对录音文件中的语音做识别,需要存放到oss上,并设置数据为私有, 非实时
oss为私有的情况下oss地址还要包含Signature,Expires,OSSAccessKeyId三个参数
阿里云大数据平台,简称数加
采样率要求是8或16K
阿里内部进行了切分,返回的结果也是分段的,后面一段重复识别了前面一段的后15ms

总结:
百度的要求格式是16K,单声道的pcm,而且时长不超过60s, 免费,但是有50000次/日 的在线识别调用配额,可以申请提高配额。
测试demo(支持各种格式音频输入,内部会进行转换):有需要的私信
搜狗的目前 只有Android和iOS平台适用,未测试
讯飞的,可以在线测试
每小时9.9元
腾讯 的
还在申请中
阿里的
提供如下三种服务:
「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
「 录音文件识别 」:对录音文件中的语音做识别,需要存放到oss上,并设置数据为私有, 非实时
测试demo地址:有需要的私信

分类:

技术点:

相关文章:

  • 2021-08-31
  • 2021-09-28
  • 2021-11-29
  • 2021-09-29
  • 2022-12-23
猜你喜欢
  • 2021-05-14
  • 2022-02-09
  • 2021-11-30
  • 2022-01-11
  • 2021-12-14
  • 2021-09-18
  • 2021-09-05
相关资源
相似解决方案