【发布时间】:2010-10-25 17:27:17
【问题描述】:
您可以将 ExtractingRequestHandler 和 Tika 与任何 提取内容以供索引的压缩文件格式(zip、tar、gz 等)?
我正在使用 curl 向 solr 发送 archived.tar 文件。卷曲“ http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true" -H '内容类型:应用程序/八位字节流' --data-binary “@/home/archived.tar” 我查询文档时得到的结果是 存档被索引为“body_texts”,但这些文件的内容是 未提取或包含。这不是我所期望的行为。参考: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example。 当我使用相同的 curl 在存档中发送 1 个实际文档时 命令提取的内容然后存储在“body_texts”字段中。是 我错过了压缩文件的步骤?
我已经添加了所有提取依赖项,如 mat 所示 http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell 和 能够成功地从 MS Word、PDF、HTML 文档中提取数据。
我正在使用以下库版本。 Solr 1.40、Solr Cell 1.4.1、Tika Core 0.4
鉴于我读过的所有内容,这个版本的 Tika 应该支持提取 压缩文件中所有文件的数据。任何帮助或建议都会 受到赞赏。
【问题讨论】:
标签: java solr full-text-search apache-tika solr-cell