【问题标题】:Using Solr CELL's ExtractingRequestHandler to index/extract files from package formats使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件
【发布时间】:2010-10-25 17:27:17
【问题描述】:

您可以将 ExtractingRequestHandler 和 Tika 与任何 提取内容以供索引的压缩文件格式(zip、tar、gz 等)?

我正在使用 curl 向 solr 发送 archived.tar 文件。卷曲“ http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true" -H '内容类型:应用程序/八位字节流' --data-binary “@/home/archived.tar” 我查询文档时得到的结果是 存档被索引为“body_texts”,但这些文件的内容是 未提取或包含。这不是我所期望的行为。参考: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example。 当我使用相同的 curl 在存档中发送 1 个实际文档时 命令提取的内容然后存储在“body_texts”字段中。是 我错过了压缩文件的步骤?

我已经添加了所有提取依赖项,如 mat 所示 http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell 和 能够成功地从 MS Word、PDF、HTML 文档中提取数据。

我正在使用以下库版本。 Solr 1.40、Solr Cell 1.4.1、Tika Core 0.4

鉴于我读过的所有内容,这个版本的 Tika 应该支持提取 压缩文件中所有文件的数据。任何帮助或建议都会 受到赞赏。

【问题讨论】:

    标签: java solr full-text-search apache-tika solr-cell


    【解决方案1】:

    简短的回答:Solr Cell 1.4.1 和 Tika Core 0.6。

    长答案:在经历了很多头痛之后,我才能够让它发挥作用。我将为直接使用 solr 的人和使用 solr 和 Ruby 库 sunspot 的人回答这个问题(这是我的问题)。

    这就是我所做的:我使用这个https://github.com/tomasc/sunspot_cell 插件来扩展太阳黑子并赋予它附件功能。 (如果您不使用 ruby​​/sunspot,请忽略此步骤)

    v1.4.1 适用于单个文件,但不适用于压缩文件,因此我不得不进行一些探索。我从 http://lucene.apache.org/solr/ 下载了 v1.4.1 代码库并获取了 dist/apache-solr-cell-1.4.1.jar 然后我不得不从 1.5 分支 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ 拉下 Tika 库。

    您可以单独下载每个,也可以使用svn来签出分支

    svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev
    

    或者只是检查库文件夹:

    svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-09-16
      • 1970-01-01
      • 2018-02-05
      • 1970-01-01
      • 1970-01-01
      • 2013-05-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多