【发布时间】:2013-02-01 22:44:07
【问题描述】:
如果这个问题已经在某处得到回答,我提前道歉 - 我无法找到它。
我对 Solr 比较陌生,并且一直按照tutorial 给出的说明使用默认的 SimplePostTool 从命令行索引我的数据。我目前在测试中使用 Solr 4.0。
首先,我通过查询删除索引中的所有内容。然后我将 SimplePostTool 指向几个目录并索引数万个文件。就我而言,目前,每个 XML 文件都是一个单独的文档。一些文档可能具有相同的 uniqueKey ID。如果重要的话,XML 文档的大小范围为 4-60kB。
SimplePostTool 完成后返回并显示 26,541 个文件已编入索引。然后我查看 Admin collection1 页面,看到 Num Docs = 20,985 和 Max Doc = 22,921。
我看到 other posts 讨论 Num Docs 和 Max Doc 之间的差异(我觉得我充分理解覆盖行为)。我的问题是为什么 SimplePostTool 报告的索引文档数量与 Solr 管理页面给出的 Max Doc 不匹配?
【问题讨论】:
-
“可能有相同的 uniqueKey ID”,表示第二次上传会覆盖第一次;没有任何警告。实际上,在 Solr 中,更新文档与添加具有相同 ID 的新文档是一样的。
-
对,我明白。不过,这不是我的问题。