【发布时间】:2013-11-18 15:26:36
【问题描述】:
Unicode 有大量的代码点,我如何检查代码点是符号(如“!”或“☭”)、数字(如“4”或“৯”)、字母(如“ a" 或 "え") 或控制字符(通常不直接显示)?
字符的位置以及它是什么类型的字符(而不是它属于哪个字母表)背后是否有任何逻辑,如果没有,是否有任何现有资源可以分类哪些范围是什么?
【问题讨论】:
标签: unicode text-parsing codepoint
Unicode 有大量的代码点,我如何检查代码点是符号(如“!”或“☭”)、数字(如“4”或“৯”)、字母(如“ a" 或 "え") 或控制字符(通常不直接显示)?
字符的位置以及它是什么类型的字符(而不是它属于哪个字母表)背后是否有任何逻辑,如果没有,是否有任何现有资源可以分类哪些范围是什么?
【问题讨论】:
标签: unicode text-parsing codepoint
这将通过这些代码点的General Category property 来完成。它是规范 UnicodeData.txt 数据集的一部分,每个严肃的 Unicode 相关库都应该有一些方法让您获得这个属性。
【讨论】:
P* 和 S*)、数字(N*)、字母(L*)和控制字符(Cc)等。