【发布时间】:2018-10-11 23:22:03
【问题描述】:
我正在尝试使用 pandas 数据框将一个非常大的 CSV 文件(超过 25M 行)导入 python。
数据框具有以下列: - dest_profile - 名 - 姓 - ID - 骗局 - 公司名称
有时,company_name 中有一个“\”(例如:HPE\HPI),它会导致导入错误。我已将 error_bad_lines=False 添加到我的 pd.read_csv 代码中。但是,我也想导入这些行。
如何在 company_name 列中跳过 \?
import pandas as pd
import numpy as np
df_1st_conns = pd.read_csv("D:\Downloads\LinkedIn\DataV2\1st_degree_nbrs.csv", error_bad_lines=False)
它认为 \ 是列分隔符。这是错误消息。
b'Skipping line 22813: expected 6 fields, saw 7\nSkipping line 62807: expected 6 fields, saw 7\n'
b'Skipping line 152688: expected 6 fields, saw 7\nSkipping line 170013: expected 6 fields, saw 7\nSkipping line 222565: expected 6 fields, saw 7\nSkipping line 222644: expected 6 fields, saw 7\nSkipping line 240790: expected 6 fields, saw 7\n'
【问题讨论】:
-
你试过
pd.read_csv(path, error_bad_lines=False, lineterminator='\n')吗? -
是的,我试过 lineterminator='\n' 但仍然遇到同样的问题。