【发布时间】:2014-05-18 06:58:39
【问题描述】:
我正在为搜索引擎运行与 Solr 集成的 nutch,nutch 抓取工作发生在 hadoop 上。我的下一个要求是为此爬网内容运行内容分类作业,如何访问存储在 HDFS 中用于此标记作业的文本内容,我计划使用 Java 运行标记作业,我如何访问此内容通过爪哇?
【问题讨论】:
我正在为搜索引擎运行与 Solr 集成的 nutch,nutch 抓取工作发生在 hadoop 上。我的下一个要求是为此爬网内容运行内容分类作业,如何访问存储在 HDFS 中用于此标记作业的文本内容,我计划使用 Java 运行标记作业,我如何访问此内容通过爪哇?
【问题讨论】:
爬取的内容存储在segments目录下的数据文件中例如:
segments\2014...\content\part-00000\data
文件类型是序列文件。要阅读它,您可以使用来自the hadoop book 或来自this answer 的代码
【讨论】:
为什么不使用 Solr 进行分类?
只需编写您自己的插件并对页面进行分类,然后将它们发送到 Solr 并将类别值存储在 Solr 中!
【讨论】: