【问题标题】:Create Google like document search page创建类似 Google 的文档搜索页面
【发布时间】:2014-10-23 04:23:59
【问题描述】:

早安,

我已经彻底搜索了互联网(和本网站),但没有找到(完整的)答案,并且还无法实施我自己的解决方案。 如果看起来我错过了已经在 Stackoverflow 上发布的解决方案;提前致歉。

我的公司扫描所有收到的邮件。 这些然后由 ABBYY Finereader 处理以获取 OCR 数据。 所有这些文档都驻留在数据中心的 NAS 上,并可通过 WEBDAV 连接访问。我想要的是索引所有这些文件(让我们现在只使用 PDF)并使它们可搜索,并可通过类似 Google 的搜索网站访问,其中可以单击结果以在浏览器中打开相应的 pdf 文件以进行查看/下载.

这就是问题所在; 我已经设置了 SOLR / Tika 并且可以索引一个 pdf 文件,搜索它并找到结果。 索引扫描文档保存到的整个文件夹的最佳方法是什么? 理想情况下,所有这些都在 linux 服务器上运行,所以我可以挂载这个目录。

如何查看此目录中的新文件以便自动为它们编制索引?

如果文件被移动到根目录中的(新)目录(或被删除/重命名)并自动更新索引,我该如何跟踪它们?

为用户创建前端的首选方式是什么?我可以自定义 Solr/browse,但我更愿意使用 Rails 来构建站点(仅仅是因为我熟悉它)并且想向 Solr 发送带有查询数据的请求并获得响应/数组以呈现给用户。

最后但并非最不重要的; 如果有人对提供此功能的商业产品有好的建议,我很想听听。我无意重新发明轮子,但我的搜索并没有给我带来太多。

【问题讨论】:

    标签: pdf solr


    【解决方案1】:

    你一次问了太多问题。所以,你得到了一堆指针,希望它对其他人也有用。

    1. 您不能“自定义 Solr/浏览” - Solr 直接暴露给用户应用程序并不安全
    2. 您可以使用带有嵌套实体的 DataImportHandler (DIH),使用 FileListEntityProcessor(rootEntity=false)来获取文件,并在内部使用 TikaEntityProcessor 来索引一堆文件。但是,这不会帮助您删除已删除的文件。也许您需要一个存根文件或类似的东西。
    3. ManifoldCF 使用 Solr,它的文件系统适配器可能比 DIH 更智能
    4. Lucidworks 是内置 Solr 的商业产品,可能具有文件系统适配器和大量其他您可以查看的功能
    5. Cloudera 是具有大数据管道(包括文档注入)并使用 Solr 的商业产品。重要的是,它还预先配置了Hue,这可能会给你至少一个版本的界面。

    【讨论】:

      猜你喜欢
      • 2013-06-27
      • 1970-01-01
      • 1970-01-01
      • 2014-12-20
      • 1970-01-01
      • 2017-12-03
      • 2012-05-26
      • 2022-01-11
      • 2014-05-05
      相关资源
      最近更新 更多