【发布时间】:2016-12-24 09:46:17
【问题描述】:
我目前正在尝试在一个非常大的 .txt 文件(几百万行文本)上使用一些简单的正则表达式。导致问题的最简单代码:
file = open("exampleFileName", "r")
for line in file:
pass
错误信息:
Traceback (most recent call last):
File "example.py", line 34, in <module>
example()
File "example.py", line 16, in example
for line in file:
File "/usr/lib/python3.4/codecs.py", line 319, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xed in position 7332: invalid continuation byte
我该如何解决这个问题? utf-8 是错误的编码吗?如果是,我怎么知道哪个是对的?
谢谢和最好的问候!
【问题讨论】:
-
发布
file -bi [your_filename]的输出。你会得到一个编码。之后将encoding参数提供给open()。 -
file -bi 命令有什么作用?
标签: python regex utf-8 decoding