【问题标题】:Web Crawler with Ajax/JavaScript使用 Ajax/JavaScript 的网络爬虫
【发布时间】:2013-08-21 01:30:48
【问题描述】:

我尝试使用HtmlUnit实现一个爬虫,可以获取执行Ajax请求和javascript执行产生的结果。但是HtmlUnit并没有那么强大,无法满足我的需求,因为它无法获取所有渲染的DOM元素通过执行 JavaScript 或 AJax 生成。然后我也尝试使用 pywebkitgtk 和 pyQtwebkit,它确实生成了一些动态 DOM 元素。但是它们工作不稳定,我不知道如何解决它。似乎有人也提到了使用 selenium。有人可以给我一些建议来实现 Ajax Crawler 吗?非常感谢!

【问题讨论】:

  • 一般来说,我的理解是你需要 JavaScript 运行时来完成真正的浏览器所做的事情,比如 Ajax 请求和异步处理程序。我投票支持selenium 方式,因为它允许以脚本方式操作真实的浏览器,从而完美覆盖网络爬虫场景以及屏幕截图等附加功能。
  • 感谢您的回复。好的,我会尝试使用硒。希望它会奏效! :D

标签: javascript ajax web-crawler


【解决方案1】:

PhantomJS 可能是解决您问题的好方法。您还可以使用一些爬虫 api,例如Unicrawler,为了简化这一点。希望它有效。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多