如何从 nutch 访问爬取的内容以进行内容分类答案

【问题标题】：How to access crawled content from nutch for content categorisation如何从 nutch 访问爬取的内容以进行内容分类
【发布时间】：2014-05-18 06:58:39
【问题描述】：

我正在为搜索引擎运行与 Solr 集成的 nutch，nutch 抓取工作发生在 hadoop 上。我的下一个要求是为此爬网内容运行内容分类作业，如何访问存储在 HDFS 中用于此标记作业的文本内容，我计划使用 Java 运行标记作业，我如何访问此内容通过爪哇？

【问题讨论】：

【解决方案1】：

爬取的内容存储在segments目录下的数据文件中例如：

segments\2014...\content\part-00000\data

文件类型是序列文件。要阅读它，您可以使用来自the hadoop book 或来自this answer 的代码

【讨论】：

【解决方案2】：

为什么不使用 Solr 进行分类？

只需编写您自己的插件并对页面进行分类，然后将它们发送到 Solr 并将类别值存储在 Solr 中！

【讨论】：