【问题标题】:Searching PDF files stored in database using SOLR使用 SOLR 搜索存储在数据库中的 PDF 文件
【发布时间】:2019-05-02 15:00:15
【问题描述】:

我有很多 PDF 文件存储在需要搜索的数据库 (MSSQL) 中。它们存储为 BLOB。我需要了解如何使用 SOLR 搜索它们。 我有一个数据库,我们称之为“fred”。 Fred 内部有一个表,我们称它为 pdffiles。 pdffiles 有一个名为 pdfdata 的列,类型为 BLOB。 pdf 存储在此表中,二进制数据存储在列中。我要采取什么步骤让 SOLR 提取这些数据并为其编制索引? 我猜它涉及 TikaEntityProcessor,但是将 pdf 存储在数据库中而不是仅仅作为常规文件会增加一定程度的复杂性。我以前曾与 SOLR 合作过,并让它在生产中运行。 示例数据配置和模式文件将非常有用。

【问题讨论】:

    标签: solr


    【解决方案1】:

    我要采取哪些步骤让 SOLR 提取这些数据并为其编制索引?

    1. 创建一个名为 tika-data-config.xml 的新文件,其中包含数据库配置和获取数据的查询。

    2. 您需要在文本编辑器中更新solrconfig.xml 并在配置标签中添加以下内容:

    1. 您需要提及与数据导入处理程序相关的库。
    2. 提供相应的数据库 jar 文件。
    3. 通过提及您的字段在schema.xml 文件中进行更改。根据您的搜索要求为您的字段添加正确的 fieldType。
    4. 设置完成后,您可以请求 solr 进行索引 使用http://localhost:8983/solr/collection1/dataimport?command=full-import

    更多详情请参考solr链接...Configure DIH

    【讨论】:

    • 我几乎可以正常工作,但收到错误“java.lang.RuntimeException: unsupported type : class java.lang.String”
    • 这是我的数据配置:
    • 能否分享问题中的数据配置?
    猜你喜欢
    • 2011-12-02
    • 2013-04-02
    • 2010-11-11
    • 1970-01-01
    • 2023-04-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-19
    相关资源
    最近更新 更多