【问题标题】:Differenciate between symbol, number and letter-codepoints in Unicode?Unicode中的符号,数字和字母代码点之间的区别?
【发布时间】:2013-11-18 15:26:36
【问题描述】:

Unicode 有大量的代码点,我如何检查代码点是符号(如“!”或“☭”)、数字(如“4”或“৯”)、字母(如“ a" 或 "え") 或控制字符(通常不直接显示)?

字符的位置以及它是什么类型的字符(而不是它属于哪个字母表)背后是否有任何逻辑,如果没有,是否有任何现有资源可以分类哪些范围是什么?

【问题讨论】:

    标签: unicode text-parsing codepoint


    【解决方案1】:

    这将通过这些代码点的General Category property 来完成。它是规范 UnicodeData.txt 数据集的一部分,每个严肃的 Unicode 相关库都应该有一些方法让您获得这个属性。

    【讨论】:

    • 我不完全确定一般类别对什么有用,但它会产生许多误导/意外的结果。
    • 什么意思?通用类别清楚地区分“符号”(P*S*)、数字(N*)、字母(L*)和控制字符(Cc)等。
    • 好吧,see for yourself。它们是由字母组成的数字,例如 VII。要消除此类情况,您应该规范化为兼容性规范形式而不是规范形式。
    猜你喜欢
    • 2015-02-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-12-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多