【发布时间】:2018-11-14 16:57:43
【问题描述】:
我正在尝试在 Python 中使用 Dask 合并大量大型数据集,以避免加载问题。我想将合并后的文件另存为.csv。事实证明,这项任务比想象的要难:
我用两个数据集组合了一个玩具示例 然后我使用的代码如下:
import dask.dataframe as dd
import glob
import os
os.chdir('C:/Users/Me/Working directory')
file_list = glob.glob("*.txt")
dfs = []
for file in file_list:
ddf = dd.read_table(file, sep=';')
dfs.append(ddf)
dd_all = dd.concat(dfs)
如果我使用dd_all.to_csv('*.csv'),我只需打印出两个原始数据集。
如果我使用dd_all.to_csv('name.csv'),我会收到一条错误消息,指出该文件不存在。
(FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Me\\Working directory\\name.csv\\1.part')
我可以使用dd_all.compute() 检查合并数据集是否已成功创建。
【问题讨论】:
标签: python merge concatenation dask dask-delayed