【问题标题】:MongoDb & C# : Using a Cursor with a sort on a large IndexMongoDb & C#:在大索引上使用带有排序的游标
【发布时间】:2020-09-04 19:19:20
【问题描述】:

所以我想删除包含 20 亿条记录的数据集。我在 url 上有一个索引,我想遍历每条记录,看看它是否重复。

索引为 110GB

MongoDB.Driver.MongoCommandException: '命令查找失败:执行程序 find 命令时出错 :: 由 :: Sort 操作使用更多 大于 RAM 的最大 33554432 字节。添加索引,或指定一个 更小的限制..'

由于索引很大,我当前的方法无法运行。

var filter = Builders<Page>.Filter.Empty;
var sort = Builders<Page>.Sort.Ascending("url");
await collection.Find(filter).Sort(sort)
    .ForEachAsync(async document =>
    {
        Console.WriteLine(document.Url);
        //_ = await collection.DeleteOneAsync(a => a.Id == document.Id);
    }
);

【问题讨论】:

  • 如果{url:1} 上已有索引,它应该使用索引而不是内存中的排序。您可以尝试数据库分析以查看实际发送到服务器的查询。
  • 你是说它应该使用Url而不是默认ID吗?
  • 使用索引进行排序时,32 MB 内存限制不适用。
  • 那么我该怎么做才能遍历文档
  • 尝试将explain 与所有计划执行选项一起使用,或者可能是数据库分析,看看它为什么不使用{url:1} 索引。

标签: c# mongodb mongodb-.net-driver


【解决方案1】:

如果目标是删除具有相同 url 的重复页面,为什么不使用如下聚合:

db.Page.aggregate(
    [
        {
            $sort: {
                url: 1
            }
        },
        {
            $group: {
                _id: "$url",
                doc: { $first: "$$ROOT" }
            }
        },
        {
            $replaceWith: "$doc"
        },
        {
            $out: "UniquePages"
        }
    ],
    {
        allowDiskUse: 1
    })

它将创建一个名为UniquePages 的新集合。检查该集合以查看数据是否正确后,您只需删除旧的 Page 集合并将新集合重命名为 Page

【讨论】:

  • @Burf2000 我想你没有 9TB 的可用磁盘空间? :-)
  • 很遗憾不是伙伴,不过我会试一试,但短 2 TB
【解决方案2】:

【讨论】:

  • 不确定这是否能回答实际问题> 我使用的是 110GB 的索引
  • 这是为了诊断和分析报告的错误。
猜你喜欢
  • 2019-12-27
  • 1970-01-01
  • 2020-04-19
  • 1970-01-01
  • 2020-05-11
  • 2012-01-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多