【问题标题】:Using Nutch how to crawl the dynamic content of web page that are uisng ajax?使用 Nutch 如何抓取使用 ajax 的网页的动态内容?
【发布时间】:2015-10-06 09:39:24
【问题描述】:

我正在使用 apache Nutch 1.10 来抓取网页并提取页面中的内容。一些链接包含在调用 ajax 时加载的动态内容。 Nutch 无法抓取和提取 ajax 的动态内容。我该如何解决这个问题?有什么解决办法吗?如果是,请帮我解答。

提前致谢。

【问题讨论】:

    标签: java ajax plugins web-crawler nutch


    【解决方案1】:

    大多数网络爬虫库不提供开箱即用的 javascript 渲染。您通常必须插入另一个提供 js 渲染的库或产品,如 Selenium 或 PhantomJS。

    这是tutorial using nutch and Selenium

    【讨论】:

    • 感谢您的回复。我已按照该链接中的说明进行操作。我已经包含了 selenium 插件,一切正常。但最后爬网后没有数据。如果不使用 selenium 插件,我将获取数据内容。
    • 我也有同样的问题,爬取后没有内容。您是否按照教程中的说明编译了 nutch?
    【解决方案2】:

    查看最新的 Nutch 1.11 主干,其中包括一个新的插件协议交互式硒。 (https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium)

    此插件允许您编写自己的处理程序并执行 javascript 以获取动态内容。

    【讨论】:

      猜你喜欢
      • 2013-07-10
      • 2023-01-29
      • 2013-09-11
      • 1970-01-01
      • 1970-01-01
      • 2019-01-13
      • 2012-01-01
      • 2021-10-04
      • 1970-01-01
      相关资源
      最近更新 更多