【问题标题】:Error while trying to compute dask dataframe尝试计算 dask 数据帧时出错
【发布时间】:2021-10-17 01:56:28
【问题描述】:

我一直在尝试将 compute() 函数传递给我拥有的数据帧,但是它一直给我以下错误:

ValueError: Usecols 不匹配列,列预期但不匹配 找到:['COL1','COL2','COL3','COL4','COL5','COL6','COL7']

import dask.dataframe as dd


use_cols = ['COL1', 'COL2', 'COL3', 'COL4', 'COL5', 'COL6', 'COL7']

ddframe = dd.read_csv('26367*', skiprows=[0, 1, 2, 3, 4, 5, 6], sep = '|', usecols = use_cols)
ddframe.compute()

我该如何解决这个问题?提前致谢

【问题讨论】:

    标签: python pandas dask


    【解决方案1】:

    可能其中一个全局文件不包含指定的列。一个简单的检查方法是打印:

    print(dd.read_csv('26367*', skiprows=[0, 1, 2, 3, 4, 5, 6], sep = '|').columns
    

    如果上述产生错误,那么您可能需要探索全局文件:

    import glob
    for f inb glob.glob('26367*'):
        print(dd.read_csv(f, skiprows=[0, 1, 2, 3, 4, 5, 6], sep = '|').columns
    

    这将显示列是否在文件中一致定义。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-08-20
      • 2021-01-16
      • 1970-01-01
      • 2018-04-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多