【发布时间】:2017-05-14 16:35:36
【问题描述】:
unicodedata.decomposition 按顺序将 Unicode 字符分解为其组件,返回值是由空格分隔的代码点字符串。
例如
>>> unicodedata.decomposition("á") # 0061 is 'a' and 0301 is the 'acute accent'
'0061 0301'
我正在使用具有多个变音符号(越南语,例如ế、ở)的 Unicode 字符,并且并不总是以所需的顺序分解(我需要去除音调标记,但不需要去除其他变音符号,如果有的话)。
所以,我正在寻找一个可以从代码点组成字符的函数,例如
>>> compose([0x0065, 0x0302]) # 'e', 'circumflex'
'ê'
ADDENDUM:虽然我知道编写一个解决我的特定问题(越南语)的函数是微不足道的,但我已经发布了这个问题,假设一般问题已经被我之前的某个人解决了,而且它可能在某个地方在标准库中。
【问题讨论】:
标签: python python-3.x unicode python-unicode