做nlp项目,除了各大电商评论和微博数据,弹幕分析对于舆论和该视频的推广都是有帮助的,下面主要说说这么从B站爬取弹幕。

过程很简单,我们来看看:

1. 首先,bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入http://comment.bilibili.com/+cid+.xml,即可得到该视频对应的cid。

比如:打开这个链接http://comment.bilibili.com/2015358.xml,就可以看到:

Python爬取B站弹幕的思路和流程

cid取法:在页面上F12,然后查找cid,该cid即为弹幕页的标识。

Python爬取B站弹幕的思路和流程

这样就可以找到该视频的cid,然后根据第一步拼成弹幕url,即可解析提取弹幕。

 

 

相关文章:

  • 2021-07-19
  • 2021-11-19
  • 2021-07-10
  • 2021-05-16
  • 2021-09-01
  • 2021-10-03
  • 2022-01-19
  • 2021-12-04
猜你喜欢
  • 2021-09-08
  • 2021-09-26
  • 2022-12-23
  • 2021-10-27
  • 2021-08-31
  • 2021-08-25
  • 2022-12-23
相关资源
相似解决方案