【发布时间】:2011-04-21 18:03:35
【问题描述】:
我们有一些包含德语变音符号的文本,使用例如'a' + 结合分音符 ($cc $88)。
知道如何将此类文本正确转换为 utf8 吗?
【问题讨论】:
-
所以你有两个代码点,或者你有一些编码形式?将字符输出到 UTF-8 流,并将对其进行编码。但请参阅 Ignacio 关于标准化的回答。您可能希望标准化为 NFC。
我们有一些包含德语变音符号的文本,使用例如'a' + 结合分音符 ($cc $88)。
知道如何将此类文本正确转换为 utf8 吗?
【问题讨论】:
首先,如果它还不是unicode,则对其进行解码。第二,unicodedata.normalize()。三、编码。
【讨论】: