【问题标题】:unable to parse flv and epub file contents using nutch无法使用 nutch 解析 flv 和 epub 文件内容
【发布时间】:2013-05-13 08:46:26
【问题描述】:

我正在使用 apache nutch 和 solr,我的要求是解析 flv 和 epub 文件的内容,我使用下面的命令来解析文件

bin/nutch crawl urls -solr http://localhost:8983/solr/ 

我已将文件 urls 保存在 nutch 的 urls 文件夹中。上面的命令正在运行,但是当我尝试使用 solr 和以下命令查看解析的内容时,它只是显示文件的 url。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

请给我建议....

谢谢

【问题讨论】:

    标签: linux parsing solr web-crawler nutch


    【解决方案1】:

    您的第二个命令是将抓取的内容插入 SOLR 索引。

    您需要在 SOLR 中运行搜索以获取爬取的内容。 类似于:

    http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on
    

    能否将schema.xml中的“content”字段改为stored="true",重新爬取、重新索引并发布SOLR搜索的结果?

    【讨论】:

    • 感谢您的回复,我已经将提交的内容更改为 store=true,但是当我在 solar 中运行搜索时得到相同的结果,如下所示“www.epingsoft.com/epub/examples/AChristmasCarol .epub/AChristmasCarol AChristmasCarol AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub AChristmasCarol www.epingsoft.com/epub/examples/AChristmasCarol.epub “请澄清一件事是可以使用 nutch 从 flv 文件中获取文本或不??如果没有,请向我推荐任何其他工具....
    • 在这种情况下,您需要编写自己的插件来从 epub 文件中提取和解析数据。恐怕 Tika 解析器不这样做。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-08-18
    • 2021-10-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多