【发布时间】:2011-03-26 11:17:12
【问题描述】:
我一直在尝试研究当 doc 或 pdf 等文档提交给 solr 时如何工作。我想知道如果我将 pdf 提交给 solr,它是否最终也会存储 pdf 文件以及解析 pdf 文件后生成的索引?
谢谢,
-凯沙夫
【问题讨论】:
标签: indexing lucene storage solr
我一直在尝试研究当 doc 或 pdf 等文档提交给 solr 时如何工作。我想知道如果我将 pdf 提交给 solr,它是否最终也会存储 pdf 文件以及解析 pdf 文件后生成的索引?
谢谢,
-凯沙夫
【问题讨论】:
标签: indexing lucene storage solr
Solr (Lucene) 本身不会“最终存储 PDF 文件”。但是,它可以存储使用文本提取器(如 Tika)从 PDF 中提取的 PDF 的文本内容(如果该字段确实被标记为存储在模式中)。
如果您希望完整存储 PDF 文件,您需要将 PDF 转换为(例如)Base64 表示形式,并将 base64 字符串保存为“已存储”字段。因此,当您访问文档时,您会将 Base64 转换回 PDF。
【讨论】: