【发布时间】:2015-10-06 09:39:24
【问题描述】:
我正在使用 apache Nutch 1.10 来抓取网页并提取页面中的内容。一些链接包含在调用 ajax 时加载的动态内容。 Nutch 无法抓取和提取 ajax 的动态内容。我该如何解决这个问题?有什么解决办法吗?如果是,请帮我解答。
提前致谢。
【问题讨论】:
标签: java ajax plugins web-crawler nutch
我正在使用 apache Nutch 1.10 来抓取网页并提取页面中的内容。一些链接包含在调用 ajax 时加载的动态内容。 Nutch 无法抓取和提取 ajax 的动态内容。我该如何解决这个问题?有什么解决办法吗?如果是,请帮我解答。
提前致谢。
【问题讨论】:
标签: java ajax plugins web-crawler nutch
大多数网络爬虫库不提供开箱即用的 javascript 渲染。您通常必须插入另一个提供 js 渲染的库或产品,如 Selenium 或 PhantomJS。
【讨论】:
查看最新的 Nutch 1.11 主干,其中包括一个新的插件协议交互式硒。 (https://github.com/apache/nutch/tree/trunk/src/plugin/protocol-interactiveselenium)
此插件允许您编写自己的处理程序并执行 javascript 以获取动态内容。
【讨论】: