从 CSV 读取 DataFrame 时韩文字符串损坏

【问题标题】：Broken Korean strings when reading DataFrame from CSV从 CSV 读取 DataFrame 时韩文字符串损坏
【发布时间】：2014-10-05 06:38:54
【问题描述】：

我是韩国用户。

当我从 Pandas DataFrame 中读取 .csv 文件时，韩文字符串如下所示：��

英语很好。

输入数据样本：

Unnamed: 0  ��������    �������ε�����   ��X��ǥ  ��Y��ǥ  �����ڵ� ������  ����߻���������  ����Ǽ�  ��������

0   165244  20131201    �ٻ�62175541 962170  1955410 331 ��������    1   2   18224.03

为什么韩文文本会损坏？

【问题讨论】：

您的 .csv 文件的编码是什么？是用utf8还是其他编码保存？

标签： python unicode pandas

【解决方案1】：

您的文本格式是 unicode，因此您需要将其解码为 utf-8：

import csv
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs):
     spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs)
     for row in spamreader:
        yield [unicode(w, 'utf-8') for w in row]

reader = unicode_csv_reader(open('your_file_name'))
for tex in reader:
  print tex

【讨论】：

我是 ipython 用户。我使用那个代码。但我看到这个错误----UnicodeDecodeError: 'utf8' codec can't decode byte 0xc7 in position 0: invalid continuation byte
所以将 utf-8 更改为 ISO-8859-1 并给我结果！