【问题标题】:Converting text containing COMBINING DIAERESIS to utf-8将包含 COMBINING DIAERESIS 的文本转换为 utf-8
【发布时间】:2011-04-21 18:03:35
【问题描述】:

我们有一些包含德语变音符号的文本,使用例如'a' + 结合分音符 ($cc $88)。

知道如何将此类文本正确转换为 utf8 吗?

【问题讨论】:

  • 所以你有两个代码点,或者你有一些编码形式?将字符输出到 UTF-8 流,并将对其进行编码。但请参阅 Ignacio 关于标准化的回答。您可能希望标准化为 NFC。

标签: python unicode utf-8


【解决方案1】:

首先,如果它还不是unicode,则对其进行解码。第二,unicodedata.normalize()。三、编码。

【讨论】:

  • 具体来说,如果您要输出它,您会希望它采用 NFC 形式。 NFD 更常在内部使用。
猜你喜欢
  • 2014-02-02
  • 1970-01-01
  • 2018-02-06
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-09-21
相关资源
最近更新 更多