【发布时间】:2019-10-15 17:18:38
【问题描述】:
我有以下 CSV 和以下条目
“第 1 列”| “列2”| “第 3 列”| “第 4 列”| “第 5 栏”
“123” | “sometext”、“this somedata”、“8 英寸”、“你好”
当我尝试读取 8 inches" 时出现问题,我无法使用 read_csv() 读取 csv。
Pandas.read_csv(io.BytesIO(obj['Body'].read()), sep="|",
quoting=1,
engine='c', error_bad_lines=False, warn_bad_lines=True,
encoding="utf-8", converters=pandas_config['converters'],skipinitialspace=True,escapechar='\"')
有没有办法处理单元格内的引号。
【问题讨论】:
-
错误是什么?这确实是 .csv 文件的问题。我可能会在输入文件上运行一个脚本来解决引用问题。是否也有两种分隔符(
|和,)?还是最后一个栏和行尾之间的整个条目是一列?你能包括你正在使用的转换器吗? -
@mgrollins:只有
|作为分隔符,问题实际上在于 csv 文件,但这是一种特殊情况,我在字符串中得到双引号 -
@mgrollins:这是错误
Exception while performing pandas.read_csv operation. error: Error tokenizing data. C error: EOF inside string starting at row 0, pandas config: -
你能在读入之前清理来自
obj['Body']的输入吗?您确定行尾之前的第一行中没有空字符吗?