【问题标题】:Broken Korean strings when reading DataFrame from CSV从 CSV 读取 DataFrame 时韩文字符串损坏
【发布时间】:2014-10-05 06:38:54
【问题描述】:

我是韩国用户。

当我从 Pandas DataFrame 中读取 .csv 文件时,韩文字符串如下所示:�����

英语很好。

输入数据样本:

Unnamed: 0  ��������    �������ε�����   ��X��ǥ  ��Y��ǥ  �����ڵ� ������  ����߻���������  ����Ǽ�  ��������

0   165244  20131201    �ٻ�62175541 962170  1955410 331 ��������    1   2   18224.03

为什么韩文文本会损坏?

【问题讨论】:

  • 您的 .csv 文件的编码是什么?是用utf8还是其他编码保存?

标签: python unicode pandas


【解决方案1】:

您的文本格式是 unicode,因此您需要将其解码为 utf-8

import csv
def unicode_reader('your_file_name',delimiter='your_delimiter', **kwargs):
     spamreader = csv.reader('your_file_name',delimiter='your_delimiter', **kwargs)
     for row in spamreader:
        yield [unicode(w, 'utf-8') for w in row]

reader = unicode_csv_reader(open('your_file_name'))
for tex in reader:
  print tex

【讨论】:

  • 我是 ipython 用户。我使用那个代码。但我看到这个错误----UnicodeDecodeError: 'utf8' codec can't decode byte 0xc7 in position 0: invalid continuation byte
  • 所以将 utf-8 更改为 ISO-8859-1 并给我结果!
猜你喜欢
  • 1970-01-01
  • 2019-09-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-05-12
  • 1970-01-01
  • 2015-06-28
  • 2016-05-31
相关资源
最近更新 更多