【发布时间】:2022-01-20 20:09:00
【问题描述】:
我有一个大的 csv 文件(大约 10Gb)。 我使用不同的 ipython 笔记本对其进行分析。(使用 pd.read_csv() 将文件加载到每个笔记本的数据框中) 我的问题是,每次读取文件时,都会使用 10G 内存。 我想知道是否有办法在进程之间共享数据帧数据,以便优化内存使用。
理想的解决方案是这样的:
在我的服务器文件中,
def InitData():
df = pd.read_csv(my.csv)
share(df)
在其他笔记本文件中,
def loadingData():
df = LoadingSharedData()
result = df.sum() #something like this
无论我创建多少个笔记本,我的记忆中都只有一个数据框。
【问题讨论】:
标签: python pandas dataframe multiprocessing