Apache Nutch 特权

【问题标题】：Apache Nutch perksApache Nutch 特权
【发布时间】：2016-04-22 07:03:00
【问题描述】：

在深入研究一些不太漂亮的文档和/或购买ebook之前，我遇到了这个非常大的工具：我只是想问一下：

Apache Nutch 如何处理 javascript 繁重的网站，以及它如何获取页面？我的意思是：它如何克服 IP 禁令？

【问题讨论】：

【解决方案1】：

Javascript - 有一个基于 Selenium 的协议实现，这可以帮助 JS 网站

Nutch 基于 Hadoop，因此是批处理驱动的。如果您正在使用基于流的抓取框架，那么StormCrawler 将是一个更好的工具。

【讨论】：