【问题标题】:dask / pandas categorical transformation differencesdask / pandas 分类转换差异
【发布时间】:2017-02-18 20:42:19
【问题描述】:

我正在管理比内存更大的 csv 文件,这些文件主要是分类数据。最初我用来创建一个大的 csv 文件,然后通过 Pandas read_csv 读取它,转换为分类并保存到 hdf5。一旦进入分类格式,它就非常适合记忆。

文件在增长,我搬到了 Dask。相同的过程。

但是,在空白字段中,Pandas 似乎使用 np.nan 并且该类别未包含在 cat.categories 列表中。

使用 Dask,空值用 NaN 填充,它作为一个单独的类别包含在内,从哪里保存到 HDF 中,我会收到未来的兼容性警告。

这是一个错误还是我错过了任何步骤? pandas 和 dask 的行为似乎有所不同。

谢谢

JC

【问题讨论】:

    标签: python csv pandas dask


    【解决方案1】:

    这在 dask 版本 0.11.1 中得到解决

    https://github.com/dask/dask/pull/1578

    【讨论】:

      猜你喜欢
      • 2021-02-05
      • 1970-01-01
      • 2020-07-28
      • 2016-08-01
      • 1970-01-01
      • 2016-09-08
      • 1970-01-01
      • 2017-02-04
      • 1970-01-01
      相关资源
      最近更新 更多