众所周知,王者荣耀已经成为众多人们喜爱的一款休闲娱乐手游,今天就利用python3 爬虫技术爬取官方网站上的几十个英雄的资料,包括官方给出的人物定位,英雄名称,技能名称,CD,英雄克制关系以及官方给出的出装Tips等数据。如下图:

Python3爬取王者官方网站英雄数据

首先,对英雄列表页中的各个英雄子夜进行观察其URL的变动,发现每个英雄页面之后后面的页数会变动且呈递增规律。

Python3爬取王者官方网站英雄数据Python3爬取王者官方网站英雄数据

 

接下来审查要爬取对象的标签元素

 

Python3爬取王者官方网站英雄数据

Python3爬取王者官方网站英雄数据

解析网站后,开始准备爬取数据

代码部分

准备要获取的所有英雄页面URL

Python3爬取王者官方网站英雄数据

根据页面上的标签获取数据并保存到字典

Python3爬取王者官方网站英雄数据 

游戏部分英雄为虚构世界人物,这里还需要在jieba手动添加英雄名和部分装备名

Python3爬取王者官方网站英雄数据                                               Python3爬取王者官方网站英雄数据

官方某些英雄由于没有在html上标明克制与压制关系的英雄名称,只上传了照片,如下图,并未找到“吕布”、“王昭君”等关键字,为了数据的完整性,部分数据需要手动在代码添加,大部分数据还是可以自动获取。

Python3爬取王者官方网站英雄数据

Python3爬取王者官方网站英雄数据

一切工作准备妥当之后,开始爬虫。

Python3爬取王者官方网站英雄数据

引入英雄名和停用词对其中部分数据进行清洗和分词

Python3爬取王者官方网站英雄数据       Python3爬取王者官方网站英雄数据

Python3爬取王者官方网站英雄数据

词频排序、保存为CSV文件

Python3爬取王者官方网站英雄数据

经过筛选,列出搭档出现频数最多,压制英雄数量最多的英雄频数,被克制最多的英雄频数三个数表如图

Python3爬取王者官方网站英雄数据  Python3爬取王者官方网站英雄数据  Python3爬取王者官方网站英雄数据

统计为树状图

Python3爬取王者官方网站英雄数据Python3爬取王者官方网站英雄数据

Python3爬取王者官方网站英雄数据

之后分析各类数据前几名英雄的官方tips词频,这里代码相同,爬取只只需改动htmlnum中的数据即可。最后输出csv文件。

Python3爬取王者官方网站英雄数据

 

在线生成词云如图

Python3爬取王者官方网站英雄数据

Python3爬取王者官方网站英雄数据Python3爬取王者官方网站英雄数据

PS:以上仅为官网数据,不代表个人观点

 

相关文章:

  • 2022-02-06
  • 2022-02-20
  • 2021-12-12
  • 2022-02-12
  • 2021-11-27
  • 2021-11-02
  • 2022-02-08
  • 2022-01-18
猜你喜欢
  • 2021-11-13
  • 2021-08-03
  • 2022-01-04
  • 2022-01-06
  • 2022-01-14
  • 2022-01-17
  • 2022-01-08
相关资源
相似解决方案