【发布时间】:2020-07-16 07:35:31
【问题描述】:
我有一个非常大的 csv 文件,我无法使用 pandas read_csv 加载到我的计算机内存中。
我看dask.dataframe as dd
我需要使用 dask 从该 csv 文件中仅读取某些列的某些行并将其存储为 panda 数据框。
例如:
User ProductA ProductB
A 1 2
B 2 3
C 3 1
如何使用 dask 仅读取用户 C 的行和 ProductA 列?
需要输出为数据框:
User ProductA
C 3
【问题讨论】:
-
你能显示原始的 csv 吗?
-
@anon01 它有 3200 万行和 25 列
标签: python pandas csv machine-learning dask