【问题标题】:How to crawl 1 million documents daily from web using apache Nutch 2.3如何使用 apache Nutch 2.3 每天从网络上抓取 100 万份文档
【发布时间】:2015-12-01 06:42:25
【问题描述】:

我已经用 hadoop 1.2.1 和 hbase 0.94.x 配置了 apache nutch 2.3。我必须爬几个星期的网页。大约需要抓取 100 万份文档。我有四个节点的 hadoop 集群。在此配置之前,我在单机上设置了 nutch 并爬取了一些文档。但是爬行速度不超过 50k 到 80k。 nutch的配置应该是什么,这样它才能每天抓取所需数量的文档。

【问题讨论】:

  • 这个问题太笼统了,缺乏必要的细节让我们给你一个好的答案。
  • 这个问题是关于如何配置 nutch 仅用于上述目的

标签: hadoop web-scraping web-crawler hbase nutch


【解决方案1】:

一般情况下,您可以设置更大的TopN,也可以将nutch-site.xml中的<name>http.content.limit</name>更改为-1。

希望这会有所帮助,

乐国岛

【讨论】:

  • 可以参考一些教程吗?
  • 具体可以阅读nutch-site.xml文件中的描述。抱歉,我没有适合你的教程。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-08-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多