使用 Ajax/JavaScript 的网络爬虫

【问题标题】：Web Crawler with Ajax/JavaScript使用 Ajax/JavaScript 的网络爬虫
【发布时间】：2013-08-21 01:30:48
【问题描述】：

我尝试使用HtmlUnit实现一个爬虫，可以获取执行Ajax请求和javascript执行产生的结果。但是HtmlUnit并没有那么强大，无法满足我的需求，因为它无法获取所有渲染的DOM元素通过执行 JavaScript 或 AJax 生成。然后我也尝试使用 pywebkitgtk 和 pyQtwebkit，它确实生成了一些动态 DOM 元素。但是它们工作不稳定，我不知道如何解决它。似乎有人也提到了使用 selenium。有人可以给我一些建议来实现 Ajax Crawler 吗？非常感谢！

【问题讨论】：

一般来说，我的理解是你需要 JavaScript 运行时来完成真正的浏览器所做的事情，比如 Ajax 请求和异步处理程序。我投票支持selenium 方式，因为它允许以脚本方式操作真实的浏览器，从而完美覆盖网络爬虫场景以及屏幕截图等附加功能。
感谢您的回复。好的，我会尝试使用硒。希望它会奏效！ :D

标签： javascript ajax web-crawler

【解决方案1】：

PhantomJS 可能是解决您问题的好方法。您还可以使用一些爬虫 api，例如Unicrawler，为了简化这一点。希望它有效。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-05
下载 2021-06-06
下载 2022-12-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode