【发布时间】:2015-02-01 13:13:03
【问题描述】:
我有一个这样创建的分组数据框:
my_gb = pandas.read_csv(filepath_or_buffer=my_file_path,
delimiter='\t').groupby(['col1', 'col2', 'col3', 'col4'])
然后我打电话给get_group:
my_row = my_gb.get_group((val1, val2, val3, val4))
并获得MemoryError。
IIUC,这只返回一行的视图(在我的数据集中) - 这怎么会导致内存错误?
【问题讨论】:
-
这么少的细节很难说。可能来自加载本身。我们需要知道文件的大小。另外,您应该将两个操作分开:首先加载文件,然后执行 groupby,这样我们就知道它在哪里失败了。
-
怎么可能是加载本身?内存错误发生的时间很晚,因为它在 get_group 上失败,而不是在读取文件或 groupby 时。
-
您正在/正在使用什么版本的熊猫?我想知道这是否是问题..
标签: python pandas out-of-memory