【问题标题】:Solr: Number of posted files does not equal maxDocSolr:发布的文件数不等于 maxDoc
【发布时间】:2013-02-01 22:44:07
【问题描述】:

如果这个问题已经在某处得到回答,我提前道歉 - 我无法找到它。

我对 Solr 比较陌生,并且一直按照tutorial 给出的说明使用默认的 SimplePostTool 从命令行索引我的数据。我目前在测试中使用 Solr 4.0。

首先,我通过查询删除索引中的所有内容。然后我将 SimplePostTool 指向几个目录并索引数万个文件。就我而言,目前,每个 XML 文件都是一个单独的文档。一些文档可能具有相同的 uniqueKey ID。如果重要的话,XML 文档的大小范围为 4-60kB。

SimplePostTool 完成后返回并显示 26,541 个文件已编入索引。然后我查看 Admin collection1 页面,看到 Num Docs = 20,985 和 Max Doc = 22,921。

我看到 other posts 讨论 Num Docs 和 Max Doc 之间的差异(我觉得我充分理解覆盖行为)。我的问题是为什么 SimplePostTool 报告的索引文档数量与 Solr 管理页面给出的 Max Doc 不匹配?

【问题讨论】:

  • “可能有相同的 uniqueKey ID”,表示第二次上传会覆盖第一次;没有任何警告。实际上,在 Solr 中,更新文档与添加具有相同 ID 的新文档是一样的。
  • 对,我明白。不过,这不是我的问题。

标签: solr indexing


【解决方案1】:

numDocs 和 maxDoc 数量不同的原因:

numDocs 表示索引中可搜索文档的数量(并且将大于 XML 文件的数量,因为某些文件包含多个文件)。 maxDoc 可能更大,因为 maxDoc 计数包括尚未从索引中删除的逻辑删除文档。您可以根据需要一遍又一遍地重新发布示例 XML 文件,并且 numDocs 永远不会增加,因为新文档将不断替换旧文档。 来自:Solr official Tutorial 。这适用于旧版本。

您可以通过优化索引来删除逻辑删除的文件 ->

【讨论】:

  • 也许我并不清楚:“在我的情况下……每个 XML 文件都是一个单独的文档。” - 在任何情况下,一个 XML 文件都不会包含一个以上的文档。我希望 SimplePostTool 索引的文档报告数 >= numDocs,但绝不会
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-02-24
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多