【问题标题】:Apache nutch is not crawling any moreApache nutch 不再爬行
【发布时间】:2014-11-24 04:33:02
【问题描述】:

我有一个两机集群。在一台机器上配置 nutch,在第二台机器上配置 hbase 和 hadoop。 hadoop 处于完全分布式模式,hbase 处于伪分布式模式。我已经爬取了大约 280GB 的数据。但现在当我开始爬行时。它给出以下消息,并且不再在上一个表中爬行

INFO mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 INFO crawl.FetchScheduleFactory - 使用 FetchSchedule impl:org.apache.nutch.crawl.DefaultFetchSchedule

以及以下错误

错误存储.HBaseStore - [Ljava.lang.StackTraceElement;@7ae0c96b

文档被提取,但它们没有保存在 hbase 中。 但是,如果我在新表中爬取数据,它运行良好并且可以正常爬取而不会出现任何错误。我认为这不是连接问题,因为它可以工作的新表。我认为这是由于某些属性等原因。

由于我不是 apache nutch 专家,谁能指导我?

【问题讨论】:

  • Stackoverflow 不是问 Nutch 问题的好地方,请在邮件列表中发送。在我的印象中,Nutch2.X 不如 Nutch1.X 可靠。

标签: java hadoop hbase web-crawler nutch


【解决方案1】:

不完全是我的领域,但看起来底层机器上的线程耗尽。

【讨论】:

  • 我必须在确认之前验证它
【解决方案2】:

因为我也面临着类似的问题。实际问题出在 regionserver (Hbase deamon) 上。因此,请尝试重新启动它,因为它在与默认设置一起使用时关闭,并且 hbase 中的数据过于混乱。如需更多信息,请参阅 regionserver 的日志文件。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多