【问题标题】:How to deal with `pickle.load` calling `__setitem__` which is not ready for use yet?如何处理尚未准备好使用的调用 __setitem__ 的 `pickle.load`?
【发布时间】:2017-02-18 20:47:32
【问题描述】:

我试图实现一个(原型,而不是生产)版本的持久字典,它使用磁盘上的 pickle 作为持久存储。但是,pickle.load 出于自己的目的调用__setitem__,并且该方法(当然)被覆盖以确保对字典的更改传播回持久存储——因此它调用pickle.dump。当然,调用 pickle.dump 是不行的,因为每个项目都是在 unpickling 期间设置的。

有没有办法解决这个问题,除了蛮力(如下)?我尝试阅读Pickling Class Instances 以寻找使用特殊方法的解决方案,但没有找到。

下面的代码监控unpickling是否正在进行,在这种情况下跳过pickle.dump;虽然它工作正常,但感觉很hacky。

import os, pickle

class PersistentDict(dict):
    def __new__(cls, *args, **kwargs):
        if not args: # when unpickling
            obj = dict.__new__(cls)
            obj.uninitialized = True
            return obj
        path, *args = args
        if os.path.exists(path):
            obj = pickle.load(open(path, 'rb'))
            del obj.uninitialized
            return obj
        else:
            obj = dict.__new__(cls, *args, **kwargs)
            obj.path = path
            obj.dump()
            return obj

    def __init__(self, *args, **kwargs):
        pass

    def __setitem__(self, key, value):
        super().__setitem__(key, value)
        self.dump()

    def __delitem__(self, key):
        super().__delitem__(key)
        self.dump()

    def dump(self):
        if not hasattr(self, 'uninitialized'):
            pickle.dump(self, open(self.path, 'wb'))

    def clear(self):
        os.remove(self.path)

pd = PersistentDict('abc')
assert pd == {}
pd[1] = 2
assert pd == {1: 2}
pd[2] = 4
assert pd == {1: 2, 2: 4}
del pd[1]
assert pd == {2: 4}
xd = PersistentDict('abc')
assert xd == {2: 4}
xd[3] = 6
assert xd == {2: 4, 3: 6}
yd = PersistentDict('abc')
assert yd == {2: 4, 3: 6}
yd.clear()

【问题讨论】:

  • 给你的类一个 dict 属性,并将数据存储在那里,而不是让你的类从 dict 继承可能更容易。然后你可以腌制存储的字典而不是你的 PersistentDict,将两层分开。
  • @BrenBarn 这正是我的想法,但我从一开始就非常反对继承,以至于我总是用组合替换它。所以这一次,我想尝试一下继承。我知道的唯一支持继承的论点是使用__getattr__的自动转发不会转发特殊方法(如__getitem____contains____eq__等),而且转发有点麻烦他们都是手动的。但这似乎是另一个例子,继承比组合更令人沮丧。

标签: python python-3.x pickle


【解决方案1】:

在尝试使用花哨的字典实现时,不建议直接从 dict 继承。一方面,Python 的 ABI 在 dict 类上采用了一些快捷方式,这些快捷方式最终可能会跳过对某些 dunder 方法的一些调用——而且,正如你在 pikcling 和 unpickling 时所看到的那样——字典和它的直接子类将以不同于普通的方式处理对象(它们的__dict__ 属性被腌制,而不是它们的键设置为__setitem__

所以,一方面,从继承 collections.UserDict 开始 - 这是 dict 的不同实现,它确保所有数据访问都是通过对 dunder 特殊方法的适当 Python 端调用完成的。您甚至可能希望将其实现为 collections.abc.MutableMapping 的实现 - 这确保您必须在代码中实现最少数量的方法才能让您的类像真正的字典一样工作。

第二件事:Pickle 协议默认会做“它的事”——在映射类中是(我没有检查,但显然是),酸洗 (key, value) 对并为每个调用 __setitem__那些在 unpicling 上的。但是酸洗行为是完全可定制的——正如你所看到的on the documentation——你可以简单地在你的类上实现显式__getstate____setstate__方法来完全控制酸洗/解酸代码。

使用 MutableMapping 并将字典内容存储在关联的内部字典中的示例:

from collections.abc import MutableMapping

class SpecialDict(MutableMapping):
    def __init__(self, path, **kwargs):
        self.path = path
        self.content = dict(**kwargs)
        self.dump()
    def __getitem__(self, key):
        return self.content[key]

    def __setitem__(self, key, value):
        self.content[key] = value
        self.dump()

    def __delitem__(self, key):
        del self.content[key]
        self.dump()

    def __iter__(self):
        return iter(self.content)

    def __len__(self):
        return len(self.content)

    def dump(self):
        ...

    def __getstate__(self):
        return (self.path, self.content)

    def __setstate__(self, state):
        self.path = state[0]
        self.content = state[1]

顺便说一句,使用 MutableMapping 超类的一大优势在于,如果您正确实现in the documentation 中描述的方法,您的代码就可以投入生产了(因此,无需担心错过精美的极端案例) .

【讨论】:

  • collections.UserDict 继承会导致isinstance(obj, dict) == False,这可能是一个重要的用例。
  • 检查“真实”字典而不是映射是“非pythonic” - 它确实发生在很多地方。然而,这些地方很多都使用身份检查打字,而不是 isinstance,即使使用 dict 的直接子类也会失败。如果需要在检查严格 dict 类的调用中替换 dict,则子类是否可以工作是运气问题。
【解决方案2】:

Raymond Hettinger 在recipe 中采用的策略是:

pickle.dump(dict(self), ...)

__init__ 内部(因此您不需要实现__new__

self.update(pickle.load(...))

【讨论】:

    猜你喜欢
    • 2017-12-19
    • 1970-01-01
    • 2016-01-24
    • 2017-09-01
    • 1970-01-01
    • 2019-03-16
    • 2019-08-14
    • 2018-06-05
    • 1970-01-01
    相关资源
    最近更新 更多