【发布时间】:2017-02-18 20:42:19
【问题描述】:
我正在管理比内存更大的 csv 文件,这些文件主要是分类数据。最初我用来创建一个大的 csv 文件,然后通过 Pandas read_csv 读取它,转换为分类并保存到 hdf5。一旦进入分类格式,它就非常适合记忆。
文件在增长,我搬到了 Dask。相同的过程。
但是,在空白字段中,Pandas 似乎使用 np.nan 并且该类别未包含在 cat.categories 列表中。
使用 Dask,空值用 NaN 填充,它作为一个单独的类别包含在内,从哪里保存到 HDF 中,我会收到未来的兼容性警告。
这是一个错误还是我错过了任何步骤? pandas 和 dask 的行为似乎有所不同。
谢谢
JC
【问题讨论】: