【问题标题】:How to overcome MemoryError of numpy.unique如何克服 numpy.unique 的 MemoryError
【发布时间】:2017-02-14 03:16:43
【问题描述】:

我使用的是 Numpy 1.11.1 版,必须处理一个二维数组

my_arr.shape = (25000, 25000)

所有值都是整数,我需要一个唯一的数组值列表。当使用lst = np.unique(my_arr) 我得到:

Traceback (most recent call last):
  File "<pyshell#38>", line 1, in <module>
    palette = np.unique(arr)
  File "c:\Python27\lib\site-packages\numpy\lib\arraysetops.py", line 176, in unique
    ar = np.asanyarray(ar).flatten()
MemoryError

我的机器只有 8 GB RAM,但我用另一台 16 GB RAM 的机器试了一下,结果是一样的。监控内存和 CPU 使用情况并不表明问题与 RAM 或 CPU 有关。

原则上,我知道数组包含的值,但是如果输入发生变化怎么办......另外,如果我想用另一个替换数组的值(假设全部 2 为 0),是否需要还有很多内存吗?

【问题讨论】:

  • Python 32 位还是 64 位?
  • Python 2.7.12 作为 32 位
  • 听起来你的问题就在那里。不要使用 32 位 python。另外,尝试使用尽可能小的 int;也许每个值一个字节就可以了?
  • 嗯,我可以改成 64 位。手头的所有数组仅由 0、1 或 2 组成 - 只是形状很大。
  • 切换到 64 位将允许您在每个进程中使用超过 1gb。使用 my_arr.astype(np.int8) 将使您在内存节省方面获得另一个因素 4。

标签: python arrays numpy


【解决方案1】:

Python 32 位无法访问超过 4 GiB 的 RAM(通常为 ~2.5 GiB)。显而易见的答案是使用 64 位版本。如果这不起作用,另一种解决方案是使用numpy.memmap 并将数组内存映射到存储在磁盘上的文件中。

【讨论】:

  • 我仍然有一个 64 位的 MemoryError 并使用 numpy.memmap。该数组为floats,形状为(8465, 103114),仅比OP 的数组稍大。 (它来自地理栅格。)
猜你喜欢
  • 1970-01-01
  • 2016-04-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-09-05
  • 2023-03-24
  • 1970-01-01
相关资源
最近更新 更多