Apache Nutch 在限制后刷新 gora 记录答案

【问题标题】：Apache Nutch flushes gora record after limitApache Nutch 在限制后刷新 gora 记录
【发布时间】：2018-04-17 07:43:02
【问题描述】：

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limit 和 gora.buffer.read.limit，即在这两种情况下都使用它们的默认值 10000。在生成阶段，我将 topN 设置为 100,000。在生成作业期间，我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

作业完成后，我发现有 100,000 个 url 被标记为我想要的 fetched。但我很困惑上面的警告显示了什么？ gora.buffer.read.limit 对我的爬行有什么影响？有人可以指导吗？

【问题讨论】：

标签： hadoop hbase nutch gora nutch2

【解决方案1】：

该日志写入here。默认情况下，写入 10000 条记录后会刷新缓冲区，因此您必须在某处将 gora.buffer.write.limit 配置为 60000（core-site.xml 或 mapred-site.xml 或代码？）。

这并不重要，因为它处于 INFO 级别。它只通知写缓冲区将被写入存储。每次调用store.flush() 或gora.buffer.write.limit 大小批量时都会发生写入过程。

【讨论】：

感谢指导