【发布时间】:2014-11-24 04:33:02
【问题描述】:
我有一个两机集群。在一台机器上配置 nutch,在第二台机器上配置 hbase 和 hadoop。 hadoop 处于完全分布式模式,hbase 处于伪分布式模式。我已经爬取了大约 280GB 的数据。但现在当我开始爬行时。它给出以下消息,并且不再在上一个表中爬行
INFO mapreduce.GoraRecordReader - gora.buffer.read.limit = 10000 INFO crawl.FetchScheduleFactory - 使用 FetchSchedule impl:org.apache.nutch.crawl.DefaultFetchSchedule
以及以下错误
错误存储.HBaseStore - [Ljava.lang.StackTraceElement;@7ae0c96b
文档被提取,但它们没有保存在 hbase 中。 但是,如果我在新表中爬取数据,它运行良好并且可以正常爬取而不会出现任何错误。我认为这不是连接问题,因为它可以工作的新表。我认为这是由于某些属性等原因。
由于我不是 apache nutch 专家,谁能指导我?
【问题讨论】:
-
Stackoverflow 不是问 Nutch 问题的好地方,请在邮件列表中发送。在我的印象中,Nutch2.X 不如 Nutch1.X 可靠。
标签: java hadoop hbase web-crawler nutch