• 采用解析网页源码的方式

  • 然后通过xpath表达式去匹配视频的信息:标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。

我在匹配这些信息时遇到两大问题:

  • 第一个问题:获取到网页源码之后,根本找不到视频的url,因为视频是通过js来播放的。

 

很巧的是我发现了播放视频的关键代码。结果是这样的:

    爬取场库网站遇到的问题

用了xpath表达式正则表达式

爬取场库网站遇到的问题

 

  • 第二个问题:每个页面最多只能爬取16个:

       selenium是web的自动化测试工具,可以在无界面浏览器上模拟人的操作,比如滚动条下滑,这样每个页面可以爬取更多的数据 。

        PhantomJS是基于webkit的无界面浏览器

        爬取场库网站遇到的问题

 

 

相关文章:

  • 2021-12-24
  • 2021-07-12
  • 2022-12-23
  • 2021-08-02
  • 2021-06-13
  • 2021-12-22
  • 2022-12-23
  • 2021-05-24
猜你喜欢
  • 2021-12-29
  • 2022-12-23
  • 2022-12-23
  • 2021-11-14
  • 2018-06-14
  • 2022-12-23
  • 2021-10-01
相关资源
相似解决方案