【发布时间】:2020-11-01 22:42:41
【问题描述】:
我正在处理一个超过 10GB 的数据集。我已经设法使用代码将其导入到 dask 数据框中:
df = dd.read_csv('FileName.csv', dtype = dt, parse_dates = ['date'])
dt = ... # a list of columns names with their data type such as 'objects' and 'floats'.
我一直在尝试运行 .describe() 函数,但我不断收到错误消息:
ValueError: 没有找到重要的数组
有谁知道如何克服这个错误?
【问题讨论】:
-
不知道为什么会出错,但请尝试
df.describe(percentiles_method="tdigest", include=dt).compute()。它应该避免当前的错误。 -
另外,
describe仅适用于数字和日期时间列。 -
@kate-melnykova 谢谢 kate,你知道我如何排除所有与对象相关的数据类型吗?
标签: python dataframe dask dask-dataframe