【发布时间】:2011-12-12 02:24:23
【问题描述】:
情况如下:我有一个需要加载到内存中的大型对象。如此之大,以至于如果它被加载两次,它将超出我机器上的可用内存(不,我无法升级内存)。我也不能把它分成任何更小的部分。为简单起见,假设对象为 600 MB,而我只有 1 GB 的 RAM。我需要从在多个进程中运行的 Web 应用程序中使用此对象,并且我无法控制它们的生成方式(第三方负载均衡器会这样做),因此我不能仅仅依赖于创建对象在一些主线程/进程中,然后产生子进程。这也消除了使用诸如 POSH 之类的东西的可能性,因为这依赖于它自己的自定义 fork 调用。我也不能使用诸如 SQLite 内存数据库、mmap 或 posix_ipc、sysv_ipc 和 shm 模块之类的东西,因为它们充当内存中的文件,并且这些数据必须是我使用它的对象。使用其中一个,我必须将其作为文件读取,然后将其转换为每个单独进程和 BAM 中的对象,由于我只是尝试加载第二个副本,因此超出机器的内存限制导致分段错误。
必须以某种方式将 Python 对象存储在内存中(而不是作为文件/字符串/序列化/腌制)并使其可以从任何进程访问。我只是不知道它是什么。我已经查看了 StackOverflow 和 Google,但找不到答案,所以我希望有人可以帮助我。
【问题讨论】:
-
我不确定您所说的“因为它们充当内存中的文件”是什么意思。共享内存是一块内存,而不是文件。您可以使用该内存来存储任何东西,包括对象。这在 Python 中可能不那么明显,但在 C 中却很明显。这必须是纯 Python 解决方案,还是您会考虑使用混合 Python/C 或 Python/C++ 解决方案通过 C/C++ 绑定到共享内存中的对象间接访问对象?
-
因为这些东西确实充当内存中的文件,例如参见docs.python.org/library/mmap.html。
-
Memcached for Python 之类的东西有帮助吗?
-
@DerekLitz:在 Python 中,它们就像一个文件(或一个字符串)。这意味着使用
mmap()的 Python 程序只能读取或写入对象的序列化版本。这就是为什么我提到此限制仅特定于 Python,并且混合解决方案可能提供完全所需的功能。 -
我明白了。你的意思是,当他说他不能时,他可以通过一些不那么明显的方式。
标签: python web memory python-internals