day120第二篇 : 人工智能语音合成,语音识别例子

本节内容预备资料:

1.FFmpeg:

链接：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg

密码：w6hk

2.baidu-aip:

pip install baidu-aip

pycharm里file-->settings--里下载baidu-aip

终于进入主题了,此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径

目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等

这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口

既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智能之旅

开启人工智能技术的大门 : http://ai.baidu.com/

看看我大百度的AI大法,这些技术全部都是封装好的接口,看着就爽

接下来咱们就一步一步的操作一下

首先进入控制台,注册一个百度的账号(百度账号通用)

开通一下我们百度AI开放平台的授权

然后找到已开通服务中的百度语音

走到这里,想必已经知道咱们要从语音入手了,语音识别和语音合成

打开百度语音,进入语音应用管理界面,创建一个新的应用

创建语音应用App

就可以创建应用了,回到应用列表我们可以看到已创建的应用了

这里面有三个值 AppID , API Key , Secret Key 记住可以从这里面看到 , 在之后的学习中我们会用到

好了百度语音的应用已经创建完成了接下来我会用Python 代码作为实例进行应用及讲解

看见三个信息之后点击左侧的技术文档

然后:

在python SDK里找到:新建AipSpeech把里面的固定代码复制到py文件

把请求书名的代码也复制进去,根据对应的参数可以自己设置:

一.安装百度的人工智能SDK:

首先咱们要 pip install baidu-aip 安装一个百度人工智能开放平台的Python SDK实在是太方便了,这也是为什么我们选择百度人工智能的最大原因

安装完成之后就来测试一下:

在工程目录下,就可以看到 s1.mp3 这个文件了,来听一听

上面咱们测试了一个语音合成的例子,那么就从语音合成开始入手

语音合成

下面做个小实例:在pycharm.py文件里写入:

yuyin.py

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = \'14941669\'
API_KEY = \'GMXcE2SoEzCTuNUVr6O17fra\'
SECRET_KEY = \'ONbIGrjw61Y7BvEq6UGjf0FbWhPAq6DC\'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)


result  = client.synthesis(\'人之初，性本善。性相近，习相远。\', \'zh\', 1, {
    \'vol\': 5,
    "spd":5,
    "per":4,
})
print(result)

# 识别正确返回语音二进制 错误则返回dict 参照下面错误码
if not isinstance(result, dict):
    with open(\'auido.mp3\', \'wb\') as f:
        f.write(result)

右击运行之后,会打印出b" "类型,右面会成生个文件;

右击: Show in Explorer打开

会出现这个页面.在双击打开就可以听到声音了

语音识别:

找语音识别的文档同语音合成的文档流程一样,只不过名字换了

和语音合成一样:

以下也是粘贴复制,改改参数

电脑直接搜录音机,然后录音,拉倒项目目录下;

windows10系统录音是m4a格式,所以要转成pcm格式才能合成.下载下面的软件,通过软件转化.

1.FFmpeg:

链接：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg

密码：w6hk

下载,然后把路径精确到bin文件添加到换将变量 .

打开cmd,输入ffmpeg进行配置,

在录音里复制路径,然后在cmd里 cd E:\liangshuang\项目\day120(到这个录音文件的上一级)

然后E:切换到当前所在

输入:

ffmpeg - y - i luyin.m4a - acodec pcm_s16le - f s16le - ac 1 - ar 16000 luyin.pcm

或者用pycharm转换也可以简单方便: 利用os 模块

配置完换将变量需要把pycharm关闭在重新打开,在继续操作,让环境变量永久生效

from aip import AipSpeech
import os

""" 你的 APPID AK SK """
APP_ID = \'14941669\'
API_KEY = \'GMXcE2SoEzCTuNUVr6O17fra\'
SECRET_KEY = \'ONbIGrjw61Y7BvEq6UGjf0FbWhPAq6DC\'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)



# 读取文件
def get_file_content(filePath):   #传参

    os.system(f"ffmpeg -y  -i {filePath} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm")

    with open(f"{filePath}.pcm", \'rb\') as fp:  #读取录音文件
        return fp.read()   #返回

# 识别本地文件
res=client.asr(get_file_content(\'luyin.m4a\'), \'pcm\', 16000, {   #pcm文件格式   把我的\'luyin.m4a\'格式转成pcm格式

 \'dev_pid\': 1536, }) 

print(res.get("result")[0])

直接右击Run就可以了

来回循环的,语音转文本,文本转语音:

from aip import AipSpeech
import os

APP_ID = \'14941669\'
API_KEY = \'GMXcE2SoEzCTuNUVr6O17fra\'
SECRET_KEY = \'ONbIGrjw61Y7BvEq6UGjf0FbWhPAq6DC\'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

def audio2text(filename):  #语音转换文本    #把luyin.m4a传进来
    os.system(f"ffmpeg -y  -i {filename} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filename}.pcm")  #把m4a转换成pcm格式
    with open(f"{filename}.pcm", \'rb\') as fp:  #打开转换完成的.pcm文件
        res = client.asr(fp.read(), \'pcm\', 16000, {   #把他发给百度,让百度转化成文本
            \'dev_pid\': 1536,
        })

        print(res.get("result")[0])
        return res.get("result")[0]

# audio2text("luyin.m4a")




def text2audio(text):   #文本转换语音
    result = client.synthesis(text, \'zh\', 1, {
        "spd": 4,
        \'vol\': 5,
        "pit": 8,
        "per": 4
    })
    if not isinstance(result, dict):
        with open(\'audio.mp3\', \'wb\') as f:
            f.write(result)

    os.system("audio.mp3")
# text2audio("python全栈13期")


#来回循环
# text = audio2text("luyin.m4a")
# text2audio(text)



#做判断
text = audio2text("luyin.m4a")
if "1,2,3,4,5,6,7,8" in text:
    text2audio("9,10,J,Q,K")
else:
    text2audio(f"你刚才是不是再说，{text}")