【问题标题】:Mongodb: How to avoid locking on big collection updatesMongodb:如何避免锁定大集合更新
【发布时间】:2013-08-01 08:13:17
【问题描述】:

我有一个包含 2.502.011 个元素的 events 集合,并希望对所有元素执行更新。不幸的是,由于写锁,我面临很多 mongodb 故障。

问题:我怎样才能避免这些错误,以确保我的所有事件都正确更新?

以下是关于我的活动收藏的信息:

> db.events.stats()
{
    "count" : 2502011,
    "size" : 2097762368,
    "avgObjSize" : 838.4305136947839,
    "storageSize" : 3219062784,
    "numExtents" : 21,
    "nindexes" : 6,
    "lastExtentSize" : 840650752,
    "paddingFactor" : 1.0000000000874294,
    "systemFlags" : 0,
    "userFlags" : 0,
    "totalIndexSize" : 1265898256,
    "indexSizes" : {
        "_id_" : 120350720,
        "destructured_created_at_1" : 387804032,
        "destructured_updated_at_1" : 419657728,
        "data.assigned_author_id_1" : 76053152,
        "emiting_class_1_data.assigned_author_id_1_data.user_id_1_data.id_1_event_type_1" : 185071936,
        "created_at_1" : 76960688
    }
}

这是一个事件的样子:

> db.events.findOne()
{
  "_id" : ObjectId("4fd5d4586107d93b47000065"),
  "created_at" : ISODate("2012-06-11T11:19:52Z"),
  "data" : {
    "project_id" : ObjectId("4fc3d2abc7cd1e0003000061"),
    "document_ids" : [
      "4fc3d2b45903ef000300007d",
      "4fc3d2b45903ef000300007e"
    ],
    "file_type" : "excel",
    "id" : ObjectId("4fd5d4586107d93b47000064")
  },
  "emiting_class" : "DocumentExport",
  "event_type" : "created",
  "updated_at" : ISODate("2013-07-31T08:52:48Z")
}

我想更新每个事件以在现有 created_atupdated_at 的基础上添加 2 个新字段。如果我错了,请纠正我,但是当您需要访问当前的元素数据时,您似乎无法使用 mongo update 命令。

这是我的更新循环:

db.events.find().forEach(
  function (e) {
    created_at = new Date(e.created_at);
    updated_at = new Date(e.updated_at);

    e.destructured_created_at = [e.created_at]; // omitted the actual values
    e.destructured_updated_at = [e.updated_at]; // omitted the actual values
    db.events.save(e);
  }
)

在运行上述命令时,由于数据库上的写锁,我得到了大量的页面错误。

【问题讨论】:

    标签: mongodb


    【解决方案1】:

    我认为您在这里感到困惑,不是写锁导致的,而是MongoDB查询您的更新文档;锁在页面错误期间不存在(实际上它仅在实际更新或保存磁盘上的文档时存在),它让位于其他操作。

    锁在 MongoDB 中更像是一个互斥体。

    这种数据大小的页面错误是完全正常的,因为您显然不经常查询此数据,我不确定您希望看到什么。我绝对不确定您的问题是什么意思:

    问题:如何避免这些错误以确保我的所有事件都正确更新?

    好的,您可能会看到的问题是,您在该机器上出现页面抖动,进而破坏了您的 IO 带宽,并用不需要的数据淹没了您的工作集。是否真的需要急切地将这个字段添加到所有文档中,当再次使用该数据时,不能由应用程序按需添加吗?

    另一种选择是分批进行。

    您可以在此处使用的一个功能是优先级队列,它规定此类更新是一项后台任务,不应过多地影响 mongod 的当前工作。我听说应该有这样的功能(找不到 JIRA :/)。

    如果我错了,请纠正我,但是当您需要访问当前的元素数据时,您似乎无法使用 mongo update 命令。

    你是对的。

    【讨论】:

    • 感谢您在这里帮助我。我认为页面错误是 mongo 告诉我说,1000 次更新,100 次失败。我有这个想法是因为我实际上首先在 Rails 中进行了这个大更新,然后发现超过一百万个事件没有正确更新!关于您的问题,我需要在此处更新所有事件,以便能够对我的应用程序进行统计。我将运行 mongo 脚本直到最后,看看我是否还有一些事件根本没有更新。使用 mongoid 时可能是 Rails 问题。谢谢,欢迎 cmets。
    • @Pierre-LouisGottfrois 我明白了,不,页面错误当然是来自硬盘的数据被带入内存,我会为此尝试 mongo 控制台,在其中运行一个 javascript 文件并查看事件是否更新就在那里(也尝试更新一个没有直接更新的),加上 mongo 控制台与数据库更接近(或在同一台服务器上),因此那里没有网络带宽。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-10-25
    • 2021-03-23
    • 2021-08-03
    • 2021-07-22
    • 2023-03-20
    • 1970-01-01
    • 2017-10-18
    相关资源
    最近更新 更多