【发布时间】:2015-04-03 16:26:04
【问题描述】:
我尝试使用 pandas 以文本文件格式读取我的数据集。但是,某些字符的编码不正确。我有 ???为撇号。
我应该怎么做才能正确编码我的文件?我试过了
encoding = "utf8"但我得到了UnicodeDecodeError: 'utf8' codec can't decode byte 0xc3 in position 2044: unexpected end of data。encoding = "latin1"但这给了我很多???encoding = "ISO-8859-1" or "ISO-8859-2"但这也给了我就像没有编码一样...
当我在 sublime 中打开我的数据时,我得到了这个角色。
更新:但是当我使用 loc 访问条目时,我得到了类似 \u0102\u02d8\xe2\x82\u0179\xc2\u015, \u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8 的内容
【问题讨论】:
-
你需要知道文件的实际编码是什么。你从哪里得到的文件?
-
您尝试过 ISO-8859-2 吗?
-
@AndyHayden 是的,我做到了
标签: python csv encoding utf-8 pandas