【发布时间】:2010-08-16 14:53:34
【问题描述】:
我正在将 csv 文件中的数据添加到数据库中。如果我打开 CSV 文件,一些条目包含项目符号 - 我可以看到它们。 file 表示它被编码为 ISO-8859。
$ file data_clean.csv
data_clean.csv: ISO-8859 English text, with very long lines, with CRLF, LF line terminators
我按如下方式读取它并将其从 ISO-8859-1 转换为 UTF-8,这是我的数据库需要的。
row = [unicode(x.decode("ISO-8859-1").strip()) for x in row]
print row[4]
description = row[4].encode("UTF-8")
print description
这给了我以下信息:
'\xa5 Research and insight \n\xa5 Media and communications'
¥ Research and insight
¥ Media and communications
为什么 \xa5 项目符号字符转换为日元符号?
我假设是因为我将它作为错误的编码读入,但在这种情况下,正确的编码是什么?也不是cp1252。
更一般地说,是否有一个工具可以让您指定 (i) 字符串 (ii) 已知字符,并找出编码?
【问题讨论】:
标签: encoding character-encoding