Unicode中的符号，数字和字母代码点之间的区别？

【问题标题】：Differenciate between symbol, number and letter-codepoints in Unicode?Unicode中的符号，数字和字母代码点之间的区别？
【发布时间】：2013-11-18 15:26:36
【问题描述】：

Unicode 有大量的代码点，我如何检查代码点是符号（如“！”或“☭”）、数字（如“4”或“৯”）、字母（如“ a" 或 "え") 或控制字符（通常不直接显示）？

字符的位置以及它是什么类型的字符（而不是它属于哪个字母表）背后是否有任何逻辑，如果没有，是否有任何现有资源可以分类哪些范围是什么？

【问题讨论】：

标签： unicode text-parsing codepoint

【解决方案1】：

这将通过这些代码点的General Category property 来完成。它是规范 UnicodeData.txt 数据集的一部分，每个严肃的 Unicode 相关库都应该有一些方法让您获得这个属性。

【讨论】：

我不完全确定一般类别对什么有用，但它会产生许多误导/意外的结果。
什么意思？通用类别清楚地区分“符号”（P* 和 S*）、数字（N*）、字母（L*）和控制字符（Cc）等。
好吧，see for yourself。它们是由字母组成的数字，例如 VII。要消除此类情况，您应该规范化为兼容性规范形式而不是规范形式。