【问题标题】:Official repository of Unicode character namesUnicode 字符名称的官方存储库
【发布时间】:2021-03-17 09:29:30
【问题描述】:

有几种方法可以获取所有 Unicode 字符名称的列表:例如使用 Python 模块 unicodedata,如 List of unicode character names 中所述,或使用网站:https://unicode.org/charts/charindex.html 但这里不完整,你必须打开并解析 PDF 才能找到名称。

但是所有 Unicode 字符名称的官方来源/存储库是什么?(这样,如果添加了新字符,列表就会更新,所以我正在寻找这些的初始来源名称,以机器可读的格式)。

我正在寻找仅包含 code pointname 的列表,采用 CSV 或任何其他格式:

code   character name
...
0102   LATIN CAPITAL LETTER A WITH BREVE
0103   LATIN SMALL LETTER A WITH BREVE
...

【问题讨论】:

  • 这与“python”、“string”和“utf-8”有什么关系?
  • @AmigoJack 我最初想使用unicodedata docs.python.org/3/library/unicodedata.html,如问题中所述,但你说得对,这方面是次要的。
  • 如何编辑您的问题,以便将unicodedata 链接到Python(因为它可能意味着something different)并删除其他两个标签?我来这里是为了“utf-8”,只是为了发现编码没有涉及。

标签: python string unicode


【解决方案1】:

实际角色数据(包括角色名称和许多其他细节)的官方来源是the Unicode Character Database

最新版本的数据文件可以通过http://www.unicode.org/Public/UCD/latest/访问。

具体名称可以在the files NamesList.txt 中找到。该文件的格式为described here

这是 CSV 格式的列表:https://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt

【讨论】:

  • 官方名称在UnicodeData.txt,更容易解析。 OTOH,您的文件包含其他名称(来自 NameAliases.txt),这些名称都是“官方”且位于同一命名空间中。
  • 此 CSV 文件包含 34627 行。然而,维基百科声称 Unicode 中有 144697 个字符。它也得到了官方页面的支持 - unicode.org/versions/stats/charcountv14_0.html
猜你喜欢
  • 2012-01-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-02-10
  • 2018-07-29
  • 2020-10-23
  • 2017-04-14
相关资源
最近更新 更多