【发布时间】:2021-11-14 15:52:42
【问题描述】:
XY:我正在尝试优化我们系统中的一组频繁查询,它从包含每个uid 的许多文档(记录)的大型集合(表)中查找"at most one record matching each uid"。具体来说,该集合是 v5.0 之前的时间序列(我需要应用 both limit 和 sort),但据我所知,答案将适用给两个运营商。如果需要,请随时更正此问题。
我正在探索这一点,因为即使在 uid 上有索引,这些(当前单独的)查询中的每一个都必须产生大量重复开销,并且有许多 uids 需要查询 - HTTP api 调用往返,打开索引文件并找到给定uid 的第一个条目。即使考虑到在评估每个 $or 时必须保持的“状态”,引擎似乎也可以比多个查询优化得更好。
说我有:
{ uid: "1000", value: "001" }
{ uid: "1001", value: "101" }
{ uid: "1002", value: "201" }
{ uid: "1000", value: "002" }
{ uid: "1000", value: "003" }
{ uid: "1001", value: "102" }
[{ uid: "1000", value: "001"}, {uid: "1001", value: "101"}]
将由看起来像这样的查询返回(此处使用 limit 无效;因此我的问题):
mycollection.find({ $or [ {uid: "1000", $limit: 1}, {uid: "1001", $limit: 1} ] })
^^^ ^^^
这在 Mongo 中是否可行,还是我需要运行两个单独的查询?
所以我可以更好地理解这里相关的数据库术语,我希望任何答案也能反映 ~standard sql - 这在sql 中是否也可能,如果是的话,什么是等价的查询
【问题讨论】:
-
注意:这里的简化示例肯定最好通过缓存来解决,我们打算针对“最新”查询(例如简单地 {$sort:-1} on timestamp) - 但其他类似使用涉及偏移到数据中,它不能使用该优化。无论如何,我真的很想了解这里有什么可能或有帮助。