什么是存储和使用同义词库的好数据结构？ [关闭]答案

【问题标题】：What's a good data structure to store and work with a thesaurus? [closed]什么是存储和使用同义词库的好数据结构？ [关闭]
【发布时间】：2021-02-18 06:47:26
【问题描述】：

几年来，我一直在从事英语词库项目，该项目结合了几个来源（例如 WordNet、维基词库、Moby 词库、Word2vec）来制作一个大型词库。目前，我将数据定义为列表列表。而且每个环节都有一个分数（越高=越强），所以“hotel”和“inn”的分数可能是2.0；但“酒店”和“跳蚤”的得分为 0.2。高分是近义词，低分是更远的关联。我已经能够使用 Dijkstra 和 A* 来查找单词之间的链接（所谓的“同义词链”）。

是否有一种图形数据库和/或分析工具非常适合此类数据？词关系强度通常是不对称的。例如，“Hoover Dam”与“Herbert Hoover”的链接比“Herbert Hoover”与“Hoover Dam”的链接更强。我对找到单词之间联系、查找不相关单词、测量单词相似度的更好方法感兴趣。

我会很感激任何新的指针/方向。

【问题讨论】：

标签： data-structures similarity directed-acyclic-graphs word-embedding thesaurus

【解决方案1】：

有趣的问题。不确定最好的数据结构，但对于处理，您可以查看此包中的 shell 邻居：https://grispy.readthedocs.io/en/latest/api.html

【讨论】：