爬取场库网站遇到的问题

采用解析网页源码的方式
然后通过xpath表达式去匹配视频的信息：标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。

我在匹配这些信息时遇到两大问题：

第一个问题：获取到网页源码之后，根本找不到视频的url，因为视频是通过js来播放的。

很巧的是我发现了播放视频的关键代码。结果是这样的：

爬取场库网站遇到的问题

用了xpath表达式和正则表达式

爬取场库网站遇到的问题

第二个问题：每个页面最多只能爬取16个：

selenium是web的自动化测试工具，可以在无界面浏览器上模拟人的操作，比如滚动条下滑，这样每个页面可以爬取更多的数据。

PhantomJS是基于webkit的无界面浏览器

爬取场库网站遇到的问题

相关文章：

2021-12-24
2021-07-12
2022-12-23
2021-08-02
2021-06-13
2021-12-22
2022-12-23
2021-05-24

猜你喜欢

2021-12-29
2022-12-23
2022-12-23
2021-11-14
2018-06-14
2022-12-23
2021-10-01

相关资源

下载 2021-07-01
下载 2021-06-06
下载 2023-02-16

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode