【发布时间】:2020-10-22 04:27:41
【问题描述】:
我正在解析一个文件,其中有一些 utf8 编码的文本以及普通文本,例如 -
str = "Name: \xE1\x83\x92\xE1\x83\x90\xE1\x83\x9B\xE1\x83\x90\xE1\x83\xA0\xE1\x83\xAF\xE1\x83\x9D\xE1\x83\x91\xE1\x83\x90"
我已经用utf8编码open("TEXT.txt", "r", encoding="utf8")打开了文件
我希望 print(str) 结果是Name: გამარჯობა
我已经尝试过再次编码和解码,它给了我预期的奇怪结果。另外,我不能用str.decode() 完全解码它,因为它显然已经解码了。
【问题讨论】:
-
什么是“普通”文本?哪种编码?
-
它是 unicode 格式
标签: python parsing encoding codec