【问题标题】:Apache Nutch 2.3.1 opic scoring filter not workingApache Nutch 2.3.1 opic 评分过滤器不起作用
【发布时间】:2018-05-09 05:05:05
【问题描述】:

我已经在一个小型集群上配置了 Nutch 2.3.1 和完整的 Hadoop/Hbase 生态系统。我对 Nutch 中使用的评分算法很好奇。我在 Nutch 中找到并使用了 opic 评分过滤器。为了找到它的影响,我按照 Nutch WIKI 的指导在 Nutch IN(dbupdate 和 generate 阶段)的不同步骤检查分数。但是我发现,无论我如何运行迭代以及获取多少文档,每个文档的分数始终保持为零。 opic 实现是否有问题,或者我缺少一些配置。

我观察到包含现金的 _csh_ 字段在提取器阶段从 Hbase 中的相应表中删除。

【问题讨论】:

    标签: web-crawler nutch scoring nutch2


    【解决方案1】:

    我已经通过将更改放入 OPICScoringFilter.java 解决了这个问题

    src/plugin/scoring-opic/src/java/org/apache/nutch/scoring/opic/OPICScoringFilter.java

    我已将其作为 UTF8 放入标记中。

    -    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
    +    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-02-19
      • 2018-07-01
      • 1970-01-01
      • 2017-09-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多