【发布时间】:2015-05-17 06:20:18
【问题描述】:
这个问题可能有一个简单的答案,但是在读取一个非常大的 csv 文件时,有很多行带有额外的列。根据数据集的条件,我知道我可以使用error_bad_lines = False 忽略这些行,但是,当我这样做时,它会将每个实例都报告给 shell,这会带来很多不必要的混乱。有没有办法禁用报告,或者配置 pandas 以接受这些行,但只接受前三列?
【问题讨论】:
这个问题可能有一个简单的答案,但是在读取一个非常大的 csv 文件时,有很多行带有额外的列。根据数据集的条件,我知道我可以使用error_bad_lines = False 忽略这些行,但是,当我这样做时,它会将每个实例都报告给 shell,这会带来很多不必要的混乱。有没有办法禁用报告,或者配置 pandas 以接受这些行,但只接受前三列?
【问题讨论】:
read_csv 中有一些您可能应该设置的参数。
例如,切换 error_bad_lines 和 warn_bad_lines 将关闭标准输出错误消息。如果只想阅读前三列,请按如下所示设置 usecols:
from pandas import read_csv
read_csv(filename, usecols=[0:3], error_bad_lines=False, warn_bad_lines=False)
【讨论】: