无法使用 nutch 解析 flv 和 epub 文件内容

【问题标题】：unable to parse flv and epub file contents using nutch无法使用 nutch 解析 flv 和 epub 文件内容
【发布时间】：2013-05-13 08:46:26
【问题描述】：

我正在使用 apache nutch 和 solr，我的要求是解析 flv 和 epub 文件的内容，我使用下面的命令来解析文件

bin/nutch crawl urls -solr http://localhost:8983/solr/

我已将文件 urls 保存在 nutch 的 urls 文件夹中。上面的命令正在运行，但是当我尝试使用 solr 和以下命令查看解析的内容时，它只是显示文件的 url。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

请给我建议....

谢谢

【问题讨论】：

【解决方案1】：

您的第二个命令是将抓取的内容插入 SOLR 索引。

您需要在 SOLR 中运行搜索以获取爬取的内容。类似于：

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

能否将schema.xml中的“content”字段改为stored="true"，重新爬取、重新索引并发布SOLR搜索的结果？

【讨论】：

感谢您的回复，我已经将提交的内容更改为 store=true，但是当我在 solar 中运行搜索时得到相同的结果，如下所示“www.epingsoft.com/epub/examples/AChristmasCarol .epub/AChristmasCarol AChristmasCarol AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub “请澄清一件事是可以使用 nutch 从 flv 文件中获取文本或不？？如果没有，请向我推荐任何其他工具....
在这种情况下，您需要编写自己的插件来从 epub 文件中提取和解析数据。恐怕 Tika 解析器不这样做。