【发布时间】:2014-10-23 04:23:59
【问题描述】:
早安,
我已经彻底搜索了互联网(和本网站),但没有找到(完整的)答案,并且还无法实施我自己的解决方案。 如果看起来我错过了已经在 Stackoverflow 上发布的解决方案;提前致歉。
我的公司扫描所有收到的邮件。 这些然后由 ABBYY Finereader 处理以获取 OCR 数据。 所有这些文档都驻留在数据中心的 NAS 上,并可通过 WEBDAV 连接访问。我想要的是索引所有这些文件(让我们现在只使用 PDF)并使它们可搜索,并可通过类似 Google 的搜索网站访问,其中可以单击结果以在浏览器中打开相应的 pdf 文件以进行查看/下载.
这就是问题所在; 我已经设置了 SOLR / Tika 并且可以索引一个 pdf 文件,搜索它并找到结果。 索引扫描文档保存到的整个文件夹的最佳方法是什么? 理想情况下,所有这些都在 linux 服务器上运行,所以我可以挂载这个目录。
如何查看此目录中的新文件以便自动为它们编制索引?
如果文件被移动到根目录中的(新)目录(或被删除/重命名)并自动更新索引,我该如何跟踪它们?
为用户创建前端的首选方式是什么?我可以自定义 Solr/browse,但我更愿意使用 Rails 来构建站点(仅仅是因为我熟悉它)并且想向 Solr 发送带有查询数据的请求并获得响应/数组以呈现给用户。
最后但并非最不重要的; 如果有人对提供此功能的商业产品有好的建议,我很想听听。我无意重新发明轮子,但我的搜索并没有给我带来太多。
【问题讨论】: