【发布时间】:2016-12-09 19:10:33
【问题描述】:
字符串编码和格式总是让我失望。
这是我所拥有的:
'ไทย'
我认为是 UTF-8,并且
'xn--o3cw4h'
这在 IDNA 编码中应该是一样的。但是,我不知道如何让 python 从一种转换为另一种。
我只是在尝试
a = u'xn--o3cw4h'
b = a.encode('idna')
b.decode('utf-8')
但我得到了完全相同的字符串('xn--o3cw4h',虽然不再是 unicode)。我目前使用的是 python 3.5。
【问题讨论】:
-
你使用的是 Python2 还是 Python3?
-
我可以推荐nedbatchelder.com/text/unipain.html 吗?我发现它对于任何在 Python 中遇到 Unicode 问题的人来说都是无价的。
-
我很乐意接受任何关于该主题的良好解释的建议。
标签: python string encoding character-encoding