【发布时间】:2013-08-21 01:30:48
【问题描述】:
我尝试使用HtmlUnit实现一个爬虫,可以获取执行Ajax请求和javascript执行产生的结果。但是HtmlUnit并没有那么强大,无法满足我的需求,因为它无法获取所有渲染的DOM元素通过执行 JavaScript 或 AJax 生成。然后我也尝试使用 pywebkitgtk 和 pyQtwebkit,它确实生成了一些动态 DOM 元素。但是它们工作不稳定,我不知道如何解决它。似乎有人也提到了使用 selenium。有人可以给我一些建议来实现 Ajax Crawler 吗?非常感谢!
【问题讨论】:
-
一般来说,我的理解是你需要 JavaScript 运行时来完成真正的浏览器所做的事情,比如 Ajax 请求和异步处理程序。我投票支持selenium 方式,因为它允许以脚本方式操作真实的浏览器,从而完美覆盖网络爬虫场景以及屏幕截图等附加功能。
-
感谢您的回复。好的,我会尝试使用硒。希望它会奏效! :D
标签: javascript ajax web-crawler