手把手教你使用Python抓取QQ音乐数据（第四弹）

【一、项目目标】

通过手把手教你使用Python抓取QQ音乐数据（第一弹）我们实现了获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。

通过手把手教你使用Python抓取QQ音乐数据（第二弹）我们实现了获取 QQ 音乐指定歌曲的歌词和指定歌曲首页热评。

通过手把手教你使用Python抓取QQ音乐数据（第三弹）我们实现了获取更多评论并生成词云图。

此次我们将将三个项目封装在一起，通过菜单控制爬取不同数据。

【二、需要的库】

主要涉及的库有：requests、openpyxl、html、json、wordcloud、jieba

如需更换词云图背景图片还需要numpy库和PIL库（pipinstall pillow）

如需生成.exe需要pyinstaller -F

【三、项目实现】

1.首先确定菜单，要实现哪些功能：

①获取指定歌手的歌曲信息（歌名、专辑、链接）

②获取指定歌曲歌词

③获取指定歌曲评论

④生成词云图

⑤退出系统

代码如下：

class QQ():

def menu(self):

print(\'欢迎使用QQ音乐爬虫系统，以下是功能菜单，请选择。\n\')

while True:

try:

print(\'功能菜单\n1.获取指定歌手的歌曲信息\n2.获取指定歌曲歌词\n3.获取指定歌曲评论\n4.生成词云图\n5.退出系统\n\')

choice = int(input(\'请输入数字选择对应的功能：\'))

if choice == 1:

self.get_info()

elif choice == 2:

self.get_id()

self.get_lyric()

elif choice == 3:

self.get_id()

self.get_comment()

elif choice == 4:

self.wordcloud()

elif choice == 5:

print(\'感谢使用！\')

break

else:

print(\'输入错误,请重新输入。\n\')

except:

print(\'输入错误,请重新输入。\n\')

第一行创建类，第二行定义菜单函数，这里用了类的实例化，里面所有函数的第一个参数都是self，我认为实例化更方便传参数；

whiletrue使菜单无限循环；

Try...except...使循环不会因报错而退出；

其他代码为设置输入不同数字对应打开不同函数。

2.封装项目（一）为get_info()

代码如下：

def get_info(self):

wb=openpyxl.Workbook()

/#创建工作薄

sheet=wb.active

/#获取工作薄的活动表

sheet.title=\'song\'

/#工作表重命名

sheet[\'A1\'] =\'歌曲名\' /#加表头，给A1单元格赋值

sheet[\'B1\'] =\'所属专辑\' /#加表头，给B1单元格赋值

sheet[\'C1\'] =\'播放链接\' /#加表头，给C1单元格赋值

url = \'https://c.y.qq.com/soso/fcgi-bin/client_search_cp\'

name = input(\'请输入要查询的歌手姓名：\')

page = int(input(\'请输入需要查询的歌曲页数：\'))

for x in range(page):

params = {

\'ct\':\'24\',

\'qqmusic_ver\': \'1298\',

\'new_json\':\'1\',

\'remoteplace\':\'sizer.yqq.song_next\',

\'searchid\':\'64405487069162918\',

\'t\':\'0\',

\'aggr\':\'1\',

\'cr\':\'1\',

\'catZhida\':\'1\',

\'lossless\':\'0\',

\'flag_qc\':\'0\',

\'p\':str(x+1),

\'n\':\'20\',

\'w\':name,

\'g_tk\':\'5381\',

\'loginUin\':\'0\',

\'hostUin\':\'0\',

\'format\':\'json\',

\'inCharset\':\'utf8\',

\'outCharset\':\'utf-8\',

\'notice\':\'0\',

\'platform\':\'yqq.json\',

\'needNewCode\':\'0\'

}

res = requests.get(url,params=params)

json = res.json()

list = json[\'data\'][\'song\'][\'list\']

for music in list:

song_name = music[\'name\']

/# 查找歌曲名，把歌曲名赋值给song_name

album = music[\'album\'][\'name\']

/# 查找专辑名，把专辑名赋给album

link = \'https://y.qq.com/n/yqq/song/\' + str(music[\'mid\']) + \'.html\n\n\'

/# 查找播放链接，把链接赋值给link

sheet.append([song_name,album,link])

/# 把name、album和link写成列表，用append函数多行写入Excel

wb.save(name+\'个人单曲排行前\'+str(page/*20)+\'清单.xlsx\')

/#最后保存并命名这个Excel文件

print(\'下载成功！\n\')

3.封装项目（二）为get_id()和get_lyric

代码如下：

def get_id(self):

self.i = input(\'请输入歌曲名：\')

url_1 = \'https://c.y.qq.com/soso/fcgi-bin/client_search_cp\'

/# 这是请求歌曲评论的url

headers = {\'user-agent\':\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\'}

params = {\'ct\': \'24\', \'qqmusic_ver\': \'1298\', \'new_json\': \'1\', \'remoteplace\': \'txt.yqq.song\', \'searchid\': \'71600317520820180\', \'t\': \'0\', \'aggr\': \'1\', \'cr\': \'1\', \'catZhida\': \'1\', \'lossless\': \'0\', \'flag_qc\': \'0\', \'p\': \'1\', \'n\': \'10\', \'w\': self.i, \'g_tk\': \'5381\', \'loginUin\': \'0\', \'hostUin\': \'0\', \'format\': \'json\', \'inCharset\': \'utf8\', \'outCharset\': \'utf-8\', \'notice\': \'0\', \'platform\': \'yqq.json\', \'needNewCode\': \'0\'}

res_music = requests.get(url_1,headers=headers,params=params)

json_music = res_music.json()

self.id = json_music[\'data\'][\'song\'][\'list\'][0][\'id\']

/# print(self.id)

def get_lyric(self):

url_2 = \'https://c.y.qq.com/lyric/fcgi-bin/fcg_query_lyric_yqq.fcg\'

/# 这是请求歌曲评论的url

headers = {

\'origin\':\'https://y.qq.com\',

\'referer\':\'https://y.qq.com/n/yqq/song/001qvvgF38HVc4.html\',

\'user-agent\':\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\'}

params = {

\'nobase64\':\'1\',

\'musicid\':self.id,

\'-\':\'jsonp1\',

\'g_tk\':\'5381\',

\'loginUin\':\'0\',

\'hostUin\':\'0\',

\'format\':\'json\',

\'inCharset\':\'utf8\',

\'outCharset\':\'utf-8\',

\'notice\':\'0\',

\'platform\':\'yqq.json\',

\'needNewCode\':\'0\',

}

res_music = requests.get(url_2,headers=headers,params=params)

js_1 = res_music.json()

lyric = js_1[\'lyric\']

lyric_html = html.unescape(lyric) /#用了转义字符html.unescape方法

/# print(lyric_html)

f1 = open(self.i+\'歌词.txt\',\'a\',encoding=\'utf-8\') /#存储到txt中

f1.writelines(lyric_html)

f1.close()

print(\'下载成功！\n\')

这里特别说一下下载歌词的headers里必须加上’origin’和’referer’，要不爬下来数据。

4.封装项目（三）为get_comment()和wordcloud()

代码如下：

def get_comment(self):

page = input(\'请输入要下载的评论页数：\')

url_3 = \'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg\'

headers = {\'user-agent\':\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36\'}

f2 = open(self.i+\'评论.txt\',\'a\',encoding=\'utf-8\') /#存储到txt中

for n in range(int(page)):

params = {\'g_tk_new_20200303\': \'5381\', \'g_tk\': \'5381\', \'loginUin\': \'0\', \'hostUin\': \'0\', \'format\': \'json\', \'inCharset\': \'utf8\', \'outCharset\': \'GB2312\', \'notice\': \'0\', \'platform\': \'yqq.json\', \'needNewCode\': \'0\', \'cid\': \'205360772\', \'reqtype\': \'2\', \'biztype\': \'1\', \'topid\': self.id, \'cmd\': \'6\', \'needmusiccrit\': \'0\', \'pagenum\':n, \'pagesize\': \'15\', \'lasthotcommentid\':\'\', \'domain\': \'qq.com\', \'ct\': \'24\', \'cv\': \'10101010\'}

res_music = requests.get(url_3,headers=headers,params=params)

js_2 = res_music.json()

comments = js_2[\'comment\'][\'commentlist\']

for i in comments:

comment = i[\'rootcommentcontent\'] + \'\n——————————————————————————————————\n\'

f2.writelines(comment)

/# print(comment)

f2.close()

print(\'下载成功！\n\')

def wordcloud(self):

self.name = input(\'请输入要生成词云图的文件名称：\')

def cut(text):