【问题标题】:Pandas - Writing an excel file containing unicode - IllegalCharacterErrorPandas - 编写包含 unicode 的 excel 文件 - IllegalCharacterError
【发布时间】:2015-03-03 16:37:01
【问题描述】:

我有以下代码:

import pandas as pd

x = [u'string with some unicode: \x16']
df = pd.DataFrame(x)

如果我尝试将此数据框写为 excel 文件:

df.to_excel("test.xlsx")

或者,如果我尝试将此数据帧写为 excel 文件,使用 utf-8 编码:

ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
df.to_excel(ew)

我收到以下错误:

IllegalCharacterError                     Traceback (most recent call last)
<ipython-input-4-62adec25ae8d> in <module>()
      1 ew = pd.ExcelWriter('test.xlsx',options={'encoding':'utf-8'})
      2 #df.to_excel("test.xlsx")
----> 3 df.to_excel(ew)

/usr/local/lib/python2.7/dist-packages/pandas/util/decorators.pyc in wrapper(*args, **kwargs)
     86                 else:
     87                     kwargs[new_arg_name] = new_arg_value
---> 88             return func(*args, **kwargs)
     89         return wrapper
     90     return _deprecate_kwarg

/usr/local/lib/python2.7/dist-packages/pandas/core/frame.pyc in to_excel(self, excel_writer, sheet_name, na_rep, float_format, columns, header, index, index_label, startrow, startcol, engine, merge_cells, encoding, inf_rep)
   1258         formatted_cells = formatter.get_formatted_cells()
   1259         excel_writer.write_cells(formatted_cells, sheet_name,
-> 1260                                  startrow=startrow, startcol=startcol)
   1261         if need_save:
   1262             excel_writer.save()

/usr/local/lib/python2.7/dist-packages/pandas/io/excel.pyc in write_cells(self, cells, sheet_name, startrow, startcol)
    679             colletter = get_column_letter(startcol + cell.col + 1)
    680             xcell = wks.cell("%s%s" % (colletter, startrow + cell.row + 1))
--> 681             xcell.value = _conv_value(cell.val)
    682             style_kwargs = {}
    683 

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in value(self, value)
    360     def value(self, value):
    361         """Set the value and infer type and display options."""
--> 362         self._bind_value(value)
    363 
    364     @property

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in _bind_value(self, value)
    269             elif self.guess_types:
    270                 value = self._infer_value(value)
--> 271         self.set_explicit_value(value, self.data_type)
    272 
    273 

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in set_explicit_value(self, value, data_type)
    235             raise ValueError('Invalid data type: %s' % data_type)
    236         if isinstance(value, STRING_TYPES):
--> 237             value = self.check_string(value)
    238         self._value = value
    239         self.data_type = data_type

/usr/local/lib/python2.7/dist-packages/openpyxl/cell/cell.pyc in check_string(self, value)
    220         value = value[:32767]
    221         if next(ILLEGAL_CHARACTERS_RE.finditer(value), None):
--> 222             raise IllegalCharacterError
    223         return value
    224 

IllegalCharacterError: 

如何将包含 unicode 的 pandas 数据框写入 excel 文件?

【问题讨论】:

    标签: python unicode pandas export-to-excel


    【解决方案1】:

    同样的问题也发生在我身上。我解决了如下:

    首先,安装python包xlsxwriter:

    pip install xlsxwriter
    

    其次,将默认引擎“openpyxl”替换为“xlsxwriter”:

    df.to_excel("test.xlsx", engine='xlsxwriter')
    

    【讨论】:

    • 你知道为什么 xlsxwriter 能解决这个问题吗?
    【解决方案2】:

    使用它来消除您可能遇到的任何错误。您可以保存到 excel 发布此内容。

    df = df.applymap(lambda x: x.encode('unicode_escape').
                     decode('utf-8') if isinstance(x, str) else x)
    

    【讨论】:

    • 好吧....它可以工作,但生成的文件内容类似于“\u4ee5\u4e0b\u6587\u9577...”
    【解决方案3】:

    不是这样的 Unicode 问题...\x16(或在 Unicode 字符串中 \u0016 指的是同一个字符)是 ASCII 控制代码 22 (SYN)。 Pandas 说在 Excel 文件中包含控制代码(制表符和换行符除外)是无效的,虽然我对 Excel 文件了解不多,但肯定不可能将它们包含在 XML 1.0 文件中,这是里面的内容xlsx.

    所以很可能没有办法在 Excel 中包含任意字符序列(带有控制代码)。您应该在编写之前将它们过滤掉,或者如果您确实需要保留原始数据,请使用仅由您的应用程序识别的某种形式的 ad hoc 编码。

    【讨论】:

    • 是的,问题出在 XML 级别——这些控制字符无法在 XML 中序列化,而且在 Excel 中也毫无意义。
    【解决方案4】:

    我在这个帖子中回答了一个类似的问题:https://stackoverflow.com/a/63950544/1851492,下面是相同的内容。


    如果您不想安装另一个 excel 编写器引擎(例如 xlsxwriter),您可以尝试通过查找导致出现 IllegalCharacterError 的模式来删除这些非法字符。

    打开路径/path/to/your/python/site-packages/openpyxl/cell/下的cell.py,查找check_string函数,你会看到它使用定义的正则表达式模式ILLEGAL_CHARACTERS_RE来查找那些非法字符。试图找到它的定义,你会看到这一行:

    ILLEGAL_CHARACTERS_RE = re.compile(r'[\000-\010]|[\013-\014]|[\016-\037]')

    这一行是您删除这些字符所需要的。将此行复制到您的程序并在您的数据框写入 excel 之前执行以下代码:

    dataframe = dataframe.applymap(lambda x: ILLEGAL_CHARACTERS_RE.sub(r'', x) if isinstance(x, str) else x)

    以上行将删除这些字符应用于每个单元格。

    【讨论】:

      【解决方案5】:

      我不知道这种特定的语言,但通常使用 excel 和 UTF8 会出错。如果您只是以编程方式使用 excel 打开一个 UTF8 字符文件,它会损坏它们(它似乎没有处理字符中的所有位,而是将其截断为有效的前 2 个和最后 2 个十六进制数字中的 8扩展字符)。

      解决方法是将 utf 文件正确加载到 excel 中,是让程序在加载导入数据后将宏插入到 Excel 工作表中。我有一些代码可以在 C# 中执行此操作,如果有帮助吗?

      您的输入是否包含任何扩展字符(即 àâäçæèëéêìïîñòöôœûüùÿÀÂÄÇÆÈËÉÊÌÏÎÑÒÖÔŒÛÜÙŸ),如果您取出它们,它是否有效?

      【讨论】:

      • 嗨,Louise,错误似乎与“\x16”有关。如果我将代码更改为 lambda 字符 x = [u'string with some unicode: \u03BB'],一切都很好。事实上,任何以 '\u' 开头的字符都可以,但任何以 '\x' 开头的字符都会导致问题。也许以 '\x' 开头的字符不是 unicode?​​span>
      • 不知道,恐怕。我只知道我在使用 unicode 到 Excel 时遇到了类似的问题,并希望提出一个调查过程。我有诸如 á 之类的字符在 excel 中以 á 出现,我发现模式是说 unicode 是 c2ab cd2f excel 中的最后一个字符是 c22f 和 abcd,即十六进制的顺序已经改变了或在某些情况下被忽略。
      • Louise 您所描述的是典型的 UTF-8 被视为 Latin-1 或 Windows 1252(UTF-8 字符是两个字节,Latin-1 和 Windows 1252 只有一个)。如果您从 Excel 打开数据文件,它将始终提示您输入字符编码。
      【解决方案6】:

      当我遇到这个错误时,我通常通过将文件写入'.csv 而不是'.xlsx' 文件来解决它。 所以不是

      yourdataframe.to_excel('Your workbook name.xlsx')
      

      我愿意:

      yourdataframe.to_csv('Your workbook name.csv')
      

      pandas 默认解码.csv 文件的方式似乎是:

      encoding : string, optional
      A string representing the encoding to use in the output file,
      defaults to 'ascii' on Python 2 and 'utf-8' on Python 3.
      

      另一方面,.xlsx 文件的默认编码是:

      encoding: string, default None
      encoding of the resulting excel file. Only necessary for xlwt,
      other writers support unicode natively.
      

      这种差异是造成该错误的原因。将带有以-+ 开头的字符串的数据写入.xlsx 文件时,也会出现错误。

      【讨论】:

        【解决方案7】:

        对于将包含 unicode 字符的数据框写入单个 excel 文件中的多个工作表,下面的代码可能会有所帮助:

        %pip install xlsxwriter
        from pandas import ExcelWriter
        import xlsxwriter
        writer = ExcelWriter('notes.xlsx')
        for key in dict_df:
                data[key].to_excel(writer, key,index=False,engine='xlsxwriter')
        writer.save()
        

        【讨论】:

          猜你喜欢
          • 2015-01-22
          • 2012-03-23
          • 2015-12-30
          • 2011-09-10
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2018-02-20
          相关资源
          最近更新 更多