【发布时间】:2013-01-11 02:34:17
【问题描述】:
我正在尝试使用 pandas 读取一个 csv 文件,该文件有一个名为标签的列,其中包含用户提供的标签,并具有 - 、“”、“”、1950 年代、16 世纪等标签。由于这些是用户提供的,因此也有许多特殊字符被错误输入。问题是我无法使用 pandas read_csv 打开 csv 文件。它显示错误:Cparser,错误标记数据。有人可以帮我将 csv 文件读入 pandas 吗?
【问题讨论】:
-
为了加快这个过程,你能从文件中发布一些给你带来麻烦的示例行吗?
-
标签字段是否被引用?如果没有,你会有一些困难
-
pandas._parser.CParserError:数据标记错误。 C 错误:预期第 3 行中有 4 个字段,看到 8 Tag 字段中的第 3 列是逗号。标签字段没有被引用。有没有不引用 Tag 列的解决方法?
-
Urf。 IIRC,您的列是“标签、用户、质量、Cluster_id”,是吗?其他三个行为(没有不带引号的逗号)吗?如果是这样,那么我们可以通过遍历每一行来挽救它,取最后三行,并说其他所有内容都应该进入 Tag 字段。
-
是的,没错,列就是你提到的。用户是一个URI,例如:xyz.nl/user_001。 Cluster_id 只包含 1 -500 的值。质量有:好、坏、有用-有用、有用-不有用等。只有标签字段包含带有 的单元格,以及在一个单元格中包含诸如 17th、red、flower 等单词的单元格。这些细胞会导致问题
标签: python csv special-characters pandas