【发布时间】:2020-03-10 19:58:43
【问题描述】:
我有一个文件包含一些句子。但其中一些包含一些有线字符(√•、√§、√Ñ),如下所示。它们是什么,有没有办法将它们转换回 python 中的普通字符?
谢谢,
示例。
Is there an outdoor grill/bbq place? P√§r
Hej Hur långt aaär de till Stallarna? MVH LAILA
Är där sandstrand och hur långt
【问题讨论】:
-
如果您知道应该用什么字符代替
√•,请使用text = text.replac("√•", expected_char)。但也许这个文本使用不同的编码然后你用来解码它 - 即。Latin1、Latin2、cp1250、iso-8859-2等。也许如果你使用不同的编码,那么你会得到正确的字符。 -
或者您的系统可能使用不同的 UTF-8 编码。据我所知,MacOS 使用很少不同的编码,它可能会产生问题。顺便说一句:我在 Stackoverflow 上找到了这个:How to decode these characters? √° √© √≠