【发布时间】:2019-05-02 15:00:15
【问题描述】:
我有很多 PDF 文件存储在需要搜索的数据库 (MSSQL) 中。它们存储为 BLOB。我需要了解如何使用 SOLR 搜索它们。 我有一个数据库,我们称之为“fred”。 Fred 内部有一个表,我们称它为 pdffiles。 pdffiles 有一个名为 pdfdata 的列,类型为 BLOB。 pdf 存储在此表中,二进制数据存储在列中。我要采取什么步骤让 SOLR 提取这些数据并为其编制索引? 我猜它涉及 TikaEntityProcessor,但是将 pdf 存储在数据库中而不是仅仅作为常规文件会增加一定程度的复杂性。我以前曾与 SOLR 合作过,并让它在生产中运行。 示例数据配置和模式文件将非常有用。
【问题讨论】:
标签: solr