【发布时间】:2019-10-01 05:22:04
【问题描述】:
我正在尝试迭代超过 100,000 张图像并捕获一些图像特征并将生成的 dataFrame 作为 pickle 文件存储在磁盘上。
不幸的是,由于 RAM 的限制,我不得不将图像分成 20,000 个块并在将结果保存到磁盘之前对其执行操作。
下面编写的代码应该在开始循环处理接下来的 20,000 张图像之前保存 20,000 张图像的结果数据帧。
但是 - 这似乎并没有解决我的问题,因为在第一个 for 循环结束时内存没有从 RAM 中释放
所以在处理第 50,000 条记录时,程序由于内存不足错误而崩溃。
我尝试在将对象保存到磁盘并调用垃圾收集器后删除它们,但是 RAM 使用率似乎并没有下降。
我错过了什么?
#file_list_1 contains 100,000 images
file_list_chunks = list(divide_chunks(file_list_1,20000))
for count,f in enumerate(file_list_chunks):
# make the Pool of workers
pool = ThreadPool(64)
results = pool.map(get_image_features,f)
# close the pool and wait for the work to finish
list_a, list_b = zip(*results)
df = pd.DataFrame({'filename':list_a,'image_features':list_b})
df.to_pickle("PATH_TO_FILE"+str(count)+".pickle")
del list_a
del list_b
del df
gc.collect()
pool.close()
pool.join()
print("pool closed")
【问题讨论】:
-
我认为在 python 中,我们没有释放内存的能力。但是我们可以使用
del命令删除一个python对象。 -
从代码中你可以看到我使用了 del 并且还调用了垃圾收集器,但它的行为似乎不像你描述的那样
-
This post 可能有助于确定要删除的对象,即您可以调用
proc.get_memory_info()来比较 GC 前后的内存使用情况。您也可能在不知不觉中对堆进行了碎片整理,python GC 可能会或可能不会为您进行碎片整理(即使您“删除并收集”那些死对象,也会导致内存使用量增加)。 -
不要将线程用于 CPU 密集型任务,而应使用进程。无论如何,不要将并行任务的数量设置为超过计算机上的 CPU 数量。
-
get_image_features内部发生了什么?您在 sn-p 中所做的一切都很好。
标签: python pandas memory-management out-of-memory