【发布时间】:2009-05-06 09:00:24
【问题描述】:
我只是想知道我们是否可以在 lucene 中实现一些 RDBMS 功能。
示例: 1) 我有 10,000 个项目文档(pdf 文件),必须对其内容进行索引,以使它们可供搜索。 2)每个文件都与一个项目有关。项目可以包含项目名称、编号、开始日期、结束日期、位置、类型等详细信息。
我必须在 pdf 文件的内容中搜索给定的关键字,但在显示结果时,我想显示第 (2) 点中提到的项目元数据。
我的想法是在索引时将一个名为 projectId 的字段与每个 pdf 文件相关联。一旦我们得到它,我们将再次触发搜索以获取项目元数据。
这样我们可以避免重复数据。此外,如果我们想更新项目元数据,我们最终只能在一个地方进行更新。否则,如果我们将此元数据与所有 pdf 文档索引一起存储,我们最终将更新所有文档,这不是我想要的方式。
请指教。
【问题讨论】:
-
您是否试图避免复制以减少重复数据占用的空间量?或者您是否试图避免保持两个系统同步的后勤工作?
标签: search join indexing lucene rdbms