创建类似 Google 的文档搜索页面答案

【问题标题】：Create Google like document search page创建类似 Google 的文档搜索页面
【发布时间】：2014-10-23 04:23:59
【问题描述】：

早安，

我已经彻底搜索了互联网（和本网站），但没有找到（完整的）答案，并且还无法实施我自己的解决方案。如果看起来我错过了已经在 Stackoverflow 上发布的解决方案；提前致歉。

我的公司扫描所有收到的邮件。这些然后由 ABBYY Finereader 处理以获取 OCR 数据。所有这些文档都驻留在数据中心的 NAS 上，并可通过 WEBDAV 连接访问。我想要的是索引所有这些文件（让我们现在只使用 PDF）并使它们可搜索，并可通过类似 Google 的搜索网站访问，其中可以单击结果以在浏览器中打开相应的 pdf 文件以进行查看/下载.

这就是问题所在；我已经设置了 SOLR / Tika 并且可以索引一个 pdf 文件，搜索它并找到结果。索引扫描文档保存到的整个文件夹的最佳方法是什么？理想情况下，所有这些都在 linux 服务器上运行，所以我可以挂载这个目录。

如何查看此目录中的新文件以便自动为它们编制索引？

如果文件被移动到根目录中的（新）目录（或被删除/重命名）并自动更新索引，我该如何跟踪它们？

为用户创建前端的首选方式是什么？我可以自定义 Solr/browse，但我更愿意使用 Rails 来构建站点（仅仅是因为我熟悉它）并且想向 Solr 发送带有查询数据的请求并获得响应/数组以呈现给用户。

最后但并非最不重要的; 如果有人对提供此功能的商业产品有好的建议，我很想听听。我无意重新发明轮子，但我的搜索并没有给我带来太多。

【问题讨论】：

标签： pdf solr

【解决方案1】：

你一次问了太多问题。所以，你得到了一堆指针，希望它对其他人也有用。

您不能“自定义 Solr/浏览” - Solr 直接暴露给用户应用程序并不安全
您可以使用带有嵌套实体的 DataImportHandler (DIH)，使用 FileListEntityProcessor（rootEntity=false）来获取文件，并在内部使用 TikaEntityProcessor 来索引一堆文件。但是，这不会帮助您删除已删除的文件。也许您需要一个存根文件或类似的东西。
ManifoldCF 使用 Solr，它的文件系统适配器可能比 DIH 更智能
Lucidworks 是内置 Solr 的商业产品，可能具有文件系统适配器和大量其他您可以查看的功能
Cloudera 是具有大数据管道（包括文档注入）并使用 Solr 的商业产品。重要的是，它还预先配置了Hue，这可能会给你至少一个版本的界面。

【讨论】：