【问题标题】:How to access crawled content from nutch for content categorisation如何从 nutch 访问爬取的内容以进行内容分类
【发布时间】:2014-05-18 06:58:39
【问题描述】:

我正在为搜索引擎运行与 Solr 集成的 nutch,nutch 抓取工作发生在 hadoop 上。我的下一个要求是为此爬网内容运行内容分类作业,如何访问存储在 HDFS 中用于此标记作业的文本内容,我计划使用 Java 运行标记作业,我如何访问此内容通过爪哇?

【问题讨论】:

    标签: java hdfs nutch tagging


    【解决方案1】:

    爬取的内容存储在segments目录下的数据文件中例如:

    segments\2014...\content\part-00000\data

    文件类型是序列文件。要阅读它,您可以使用来自the hadoop book 或来自this answer 的代码

    【讨论】:

      【解决方案2】:

      为什么不使用 Solr 进行分类?

      只需编写您自己的插件并对页面进行分类,然后将它们发送到 Solr 并将类别值存储在 Solr 中!

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-02-19
        • 1970-01-01
        • 2016-09-11
        • 1970-01-01
        相关资源
        最近更新 更多