【问题标题】:Apache Nutch flushes gora record after limitApache Nutch 在限制后刷新 gora 记录
【发布时间】:2018-04-17 07:43:02
【问题描述】:

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有更改 gora.buffer.read.limitgora.buffer.read.limit,即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

作业完成后,我发现有 100,000 个 url 被标记为我想要的 fetched。但我很困惑上面的警告显示了什么? gora.buffer.read.limit 对我的爬行有什么影响? 有人可以指导吗?

【问题讨论】:

    标签: hadoop hbase nutch gora nutch2


    【解决方案1】:

    该日志写入here。默认情况下,写入 10000 条记录后会刷新缓冲区,因此您必须在某处将 gora.buffer.write.limit 配置为 60000core-site.xmlmapred-site.xml 或代码?)。

    这并不重要,因为它处于 INFO 级别。它只通知写缓冲区将被写入存储。 每次调用store.flush()gora.buffer.write.limit 大小批量时都会发生写入过程。

    【讨论】:

    • 感谢指导
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-06-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多