【发布时间】:2013-07-06 12:37:01
【问题描述】:
我有一个包含 100 万行的文档,需要针对大约 8000 行的文件进行搜索。我最初尝试过 lucene,但是搜索这么多搜索请求所花费的时间需要时间。是否可以执行这样的搜索操作???我需要在包含 8000 行的纯文本文档中找到与搜索字符串相似的字符串。我尝试使用 lucene 的可能方法:
- 索引 8000 行文档并传递 100 万个搜索查询。
- 索引包含搜索查询的文档并将 8000 行文档作为搜索查询传递。我不确定这是不是一个正确的想法。
- 一个可能的:我从未尝试过。索引两个文档并比较它们的相似性。这甚至可以做到吗?
【问题讨论】:
-
我不熟悉“十万”这个词。我看到它被用于 100,000 的参考。那是对的吗?如 100 万 = 1,000,000?
-
是的 10 Lkh = 1,000,000 .
-
8000行文件包含什么?这些只是一些关键字还是一些长句/短语?请发布两个文档中的一些示例内容。
-
主要是句子,每行一个句子。
-
什么是“匹配”?整个句子或这些句子中的任何标记?
标签: java search lucene indexing