百度AI开放平台

百度AI开放平台/

有很多非常实用的功能
智能系统概论——初识百度AI平台
可以看到有很多可以用的插件没有用过,可能是商业合作相关?

当然,我们也可以调用一些功能
智能系统概论——初识百度AI平台
重点关注:语音技术(语音转文字等等),图像技术(图像审核),文字识别(识别图片文字),人脸识别,自然语音(词法,文本相似度)==斯坦福?结巴分词那种?==AR与VR

里面也很贴心,每一种功能都有一个QuickStart,能够帮助菜鸟入门
智能系统概论——初识百度AI平台
当然如果要详细阅读功能,需要参考API文档或者看看不同环境下的SDK
而菜鸟要做的是区分API和SDK。。。SDK相当于开发集成工具环境,API就是数据接口,SDK提供了API的接口,但是又不局限于API。API类似于C语言的fopen,java的String,可以不访问源码而调用功能

智能系统概论——初识百度AI平台
于是自己做了一个demo。当然源码肯定copy网上的,自己改改
步骤一:首先要申请一个百度AI平台的账户,如何申请跳过。进入到自己的百度智能云中
百度智能云
进入后可以看到左边导航栏有很多服务,其实是与百度AI平台的服务对应的,比如我要使用语音技术,就进入语音技术就好
智能系统概论——初识百度AI平台
步骤二:创建应用,智能系统概论——初识百度AI平台
进取后输入基本参数,可以看到下面可以选择不同类型的服务
智能系统概论——初识百度AI平台
创建后得到如图所示,提供API Key 和Secret Key 分别对应账号和密码
智能系统概论——初识百度AI平台

步骤三:实现语音识别的功能。
将PCM,WAV,AMR格式的语音识别为汉子
我参考的是官方提供的代码,在API文档里有,并且也提供样例
百度的github应该不会挂吧?。。
githuba源码
需要的可以下载,其实我们只需要修改如下
1:修改文件名和路径云云,或者自己配置
./代表当前路径 ./16k.pcm=16k.pcm
…/代表父路径 或者直接用绝对路径

2:
API_KEY = ‘kVcnfD9iW2XVZSMaLMrtLYIz’
SECRET_KEY = ‘O9o1O213UgG5LFn0bDGNtoRN3VWl2du6’
具体的值填上面创建好应用里的对应信息。

简单分析一下过程:
分为两次调用百度服务器
1:通过函数fetch_token获取token,这个token相当于一个通信证,我们需要提供自己的API_KEY和SECRET_KEY 来获取验证。
2:在本地打开文件后,编写headers包含比如URL,语音等,通过Request访问远程接口
3:返回一个文件,利用f = urlopen(req)。可以阅读,例如
失败:{“err_msg”:“content len too long.”,“err_no”:3310,“sn”:""}
成功:{“corpus_no”:“6759082853617517895”,“err_msg”:“success.”,“err_no”:0,“result”:[“北京科技馆”],“sn”:“238774086171573721611”}
失败会返回错误编码类似408这种(这里是3310),可以到官方文档API里看是哪种错误

当然上述的例子效果实在太差,只能小于60S而且格式为pcm,所以下面有一个较难的例子
https://www.cnblogs.com/lsdb/p/9603721.html
因为涉及到linux下的speech-vad-demo编译,所以我没有实现,github代码如下
https://github.com/Baidu-AIP/speech-vad-demo

提供一个好用的语音转换器https://convertio.co/zh/download/438fdd376ffdaef9d3d55a1543e620036982bd/

相关文章: