Apache nutch 不再爬行答案

【问题标题】：Apache nutch is not crawling any moreApache nutch 不再爬行
【发布时间】：2014-11-24 04:33:02
【问题描述】：

我有一个两机集群。在一台机器上配置 nutch，在第二台机器上配置 hbase 和 hadoop。 hadoop 处于完全分布式模式，hbase 处于伪分布式模式。我已经爬取了大约 280GB 的数据。但现在当我开始爬行时。它给出以下消息，并且不再在上一个表中爬行

INFO mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 INFO crawl.FetchScheduleFactory - 使用 FetchSchedule impl：org.apache.nutch.crawl.DefaultFetchSchedule

以及以下错误

错误存储.HBaseStore - [Ljava.lang.StackTraceElement;@7ae0c96b

文档被提取，但它们没有保存在 hbase 中。但是，如果我在新表中爬取数据，它运行良好并且可以正常爬取而不会出现任何错误。我认为这不是连接问题，因为它可以工作的新表。我认为这是由于某些属性等原因。

由于我不是 apache nutch 专家，谁能指导我？

【问题讨论】：

wiki.apache.org/nutch/…
Stackoverflow 不是问 Nutch 问题的好地方，请在邮件列表中发送。在我的印象中，Nutch2.X 不如 Nutch1.X 可靠。

标签： java hadoop hbase web-crawler nutch

【解决方案1】：

不完全是我的领域，但看起来底层机器上的线程耗尽。

【讨论】：

我必须在确认之前验证它

【解决方案2】：

因为我也面临着类似的问题。实际问题出在 regionserver (Hbase deamon) 上。因此，请尝试重新启动它，因为它在与默认设置一起使用时关闭，并且 hbase 中的数据过于混乱。如需更多信息，请参阅 regionserver 的日志文件。

【讨论】：