【问题标题】:Apache Solr - are the documents itself stored internally apart from the index?Apache Solr - 文档本身是否存储在索引之外?
【发布时间】:2011-03-26 11:17:12
【问题描述】:

我一直在尝试研究当 doc 或 pdf 等文档提交给 solr 时如何工作。我想知道如果我将 pdf 提交给 solr,它是否最终也会存储 pdf 文件以及解析 pdf 文件后生成的索引?

谢谢,

-凯沙夫

【问题讨论】:

    标签: indexing lucene storage solr


    【解决方案1】:

    Solr (Lucene) 本身不会“最终存储 PDF 文件”。但是,它可以存储使用文本提取器(如 Tika)从 PDF 中提取的 PDF 的文本内容(如果该字段确实被标记为存储在模式中)。

    如果您希望完整存储 PDF 文件,您需要将 PDF 转换为(例如)Base64 表示形式,并将 base64 字符串保存为“已存储”字段。因此,当您访问文档时,您会将 Base64 转换回 PDF。

    【讨论】:

    • 或者,将 pdf 保存到文件系统并将其位置保存在“已存储”字段中。
    • 米科斯,感谢您的回复!您提到可以存储 PDF 的文本内容。但是索引搜索是否需要文本存储?
    • 搜索不需要。但是如果你需要高亮(sn-ps),那么你就需要存储。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-07-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-04-02
    • 2014-12-16
    • 2013-05-10
    相关资源
    最近更新 更多