dask / pandas 分类转换差异答案

【问题标题】：dask / pandas categorical transformation differencesdask / pandas 分类转换差异
【发布时间】：2017-02-18 20:42:19
【问题描述】：

我正在管理比内存更大的 csv 文件，这些文件主要是分类数据。最初我用来创建一个大的 csv 文件，然后通过 Pandas read_csv 读取它，转换为分类并保存到 hdf5。一旦进入分类格式，它就非常适合记忆。

文件在增长，我搬到了 Dask。相同的过程。

但是，在空白字段中，Pandas 似乎使用 np.nan 并且该类别未包含在 cat.categories 列表中。

使用 Dask，空值用 NaN 填充，它作为一个单独的类别包含在内，从哪里保存到 HDF 中，我会收到未来的兼容性警告。

这是一个错误还是我错过了任何步骤？ pandas 和 dask 的行为似乎有所不同。

谢谢

【问题讨论】：

【解决方案1】：

这在 dask 版本 0.11.1 中得到解决

【讨论】：