Unicode 字符名称的官方存储库答案

【问题标题】：Official repository of Unicode character namesUnicode 字符名称的官方存储库
【发布时间】：2021-03-17 09:29:30
【问题描述】：

有几种方法可以获取所有 Unicode 字符名称的列表：例如使用 Python 模块 unicodedata，如 List of unicode character names 中所述，或使用网站：https://unicode.org/charts/charindex.html 但这里不完整，你必须打开并解析 PDF 才能找到名称。

但是所有 Unicode 字符名称的官方来源/存储库是什么？（这样，如果添加了新字符，列表就会更新，所以我正在寻找这些的初始来源名称，以机器可读的格式）。

我正在寻找仅包含 code point 和 name 的列表，采用 CSV 或任何其他格式：

code   character name
...
0102   LATIN CAPITAL LETTER A WITH BREVE
0103   LATIN SMALL LETTER A WITH BREVE
...

【问题讨论】：

这与“python”、“string”和“utf-8”有什么关系？
@AmigoJack 我最初想使用unicodedata docs.python.org/3/library/unicodedata.html，如问题中所述，但你说得对，这方面是次要的。
如何编辑您的问题，以便将unicodedata 链接到Python（因为它可能意味着something different）并删除其他两个标签？我来这里是为了“utf-8”，只是为了发现编码没有涉及。

【解决方案1】：

实际角色数据（包括角色名称和许多其他细节）的官方来源是the Unicode Character Database。

最新版本的数据文件可以通过http://www.unicode.org/Public/UCD/latest/访问。

具体名称可以在the files NamesList.txt 中找到。该文件的格式为described here。

【讨论】：

官方名称在UnicodeData.txt，更容易解析。 OTOH，您的文件包含其他名称（来自 NameAliases.txt），这些名称都是“官方”且位于同一命名空间中。
此 CSV 文件包含 34627 行。然而，维基百科声称 Unicode 中有 144697 个字符。它也得到了官方页面的支持 - unicode.org/versions/stats/charcountv14_0.html