【问题标题】:Apache Nutch perksApache Nutch 特权
【发布时间】:2016-04-22 07:03:00
【问题描述】:

在深入研究一些不太漂亮的文档和/或购买ebook之前,我遇到了这个非常大的工具:我只是想问一下:

Apache Nutch 如何处理 javascript 繁重的网站,以及它如何获取页面? 我的意思是:它如何克服 IP 禁令?

【问题讨论】:

  • 糟糕的文档?
  • 嘿,对不起 :) 只是我读了一些说明性和实用性更强的书

标签: java hadoop web-crawler nutch


【解决方案1】:

Javascript - 有一个基于 Selenium 的协议实现,这可以帮助 JS 网站

Nutch 基于 Hadoop,因此是批处理驱动的。如果您正在使用基于流的抓取框架,那么StormCrawler 将是一个更好的工具。

【讨论】:

    猜你喜欢
    • 2013-08-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多