【发布时间】:2017-02-16 07:01:56
【问题描述】:
我有一个用 unicode 字符填充为 "\ud83d\udca5" 的文本文件,但 python 似乎不喜欢它们。
但是如果我用u'\U0001f4a5' 替换它,这似乎是他的python 逃逸风格(Charbase),它就可以工作。
有没有办法将它们全部转换成python无法理解的u"\Uxxxxxxxx"转义格式?
谢谢。
【问题讨论】:
-
那是因为那是 UTF-16,而不是 UTF-8。
-
@Joey:这不是(全部)重点。 Unicode 对象和编码字节序列(由 UTF-16、UTF-8 或其他编码)之间存在根本区别。
-
是的,我想是的,但我在 UTF-8 文件中有 UTF-16 字符。这就是问题所在。
-
@TimPietzcker:我的评论主要提到“我在 UTF-8 文件中有这些东西,但它不能正常工作”
-
你的意思是你有一个包含文字反斜杠和字母“u”的文件吗?如果是这样,您需要弄清楚它是什么格式并为此使用合适的解析器。例如,它可能是 JSON。
标签: python python-3.x unicode escaping unicode-escapes