【发布时间】:2012-06-18 23:49:37
【问题描述】:
我正在使用简单的函数在开始工作之前恢复状态:
import pickle, gzip
def load(filename):
"""Loads a compressed object from disk
"""
file = gzip.GzipFile(filename, 'rb')
return pickle.load(file)
records_df = load("records_all_in_one.gzp")
问题是恢复状态是我的应用程序的瓶颈。有什么简单的方法可以告诉 gzip/pickle 组合使用多处理?
当然,我总是可以拆分数据结构并从多个内核上的多个文件中读取它,但我更愿意看看是否有更聪明的方法来做到这一点。
最后一点信息 - 正在恢复的数据是一个大的 pandas DataFrame。
【问题讨论】: