【问题标题】:Calculating the semantic distance between words计算词之间的语义距离
【发布时间】:2010-09-28 18:58:48
【问题描述】:

有谁知道计算两个词之间“语义距离”的好方法吗?

立即想到了一种计算同义词库中单词之间步长的算法。


好的,似乎已经回答了类似的问题:Is there an algorithm that tells the semantic similarity of two phrases

【问题讨论】:

  • 对于大多数任意词对,它们之间不会有“Kevin Bacon”路径,这个距离将是无限的。这就是你想要的吗?
  • 我正在考虑使用这种算法自动将用户信誉聚集在“域”中,这样​​用户就可以逐个域地获得更高的权限。例如一个用户可能是“航行”方面的专家,所以我的系统会给那个用户更多的航行相关项目的权限。

标签: algorithm


【解决方案1】:

在文本挖掘中有一个重要的格言:“你会通过 它所保持的公司”。这意味着可以根据经常出现在该词附近的术语来学习一个词的含义。

在不深入细节的情况下,让我给出两个简单的选项来估计术语之间的语义距离:

  1. 使用类似于WordNet(大型英语词汇数据库)的资源。 WordNet 表面上类似于同义词库,因为它根据单词的含义将单词组合在一起。单词之间的语义距离可以估计为连接两个单词的顶点数。

  2. 使用大型语料库(例如 Wikipedia),计算出现在您正在分析的单词附近的术语。创建两个向量并计算距离(例如余弦)。

您可以查看此材料以获取有关该主题的图片:

  1. http://www.saifmohammad.com/WebDocs/Mohammad_Saif_Thesis-slides.pdf

  2. http://www.umiacs.umd.edu/~saif/WebDocs/distributionalmeasures.pdf

  3. http://www.umiacs.umd.edu/~saif/WebDocs/Measuring-Semantic-Distance.pdf

【讨论】:

  • 虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接的答案可能会失效。
【解决方案2】:

词库的想法有一些优点。一个想法是基于同义词库创建一个图,其中节点是单词,边表示它们在同义词库中被列为同义词。然后,您可以使用最短路径算法为您提供节点之间的距离,以衡量它们的相似性。

这里的一个困难是有些词在不同的上下文中具有不同的含义。您的算法可能需要考虑到这一点,并使用有向链接,其出站链接的权重取决于所遵循的传入链接(或基于传入链接忽略某些传出链接)。

【讨论】:

  • 谢谢。是的,这是一个棘手的问题,但是随着您对我的同义词库想法的扩展并专注于语言的一个子集(例如,只是名词),直觉上这听起来是可能的。不过我现在没有时间实施这样的系统。
  • 叙词表并没有真正形成图表。每个条目都是一个“同义词集”——一组同义词,其中集合中的所有单词都具有相同的含义。如果一个词出现在多个同义词集中,那是因为这个词有多重含义——所以在两个同义词集之间划一条边不是很有用。
  • @Nick - 这不是我真正的专业领域,但我可以看到很难构建准确的图表,因为条目本身中的单词可能更接近或更远离基于语义的目标.也许使用多个同义词库并为每个包含同义词对的同义词库添加 1。
  • 我的意思是,当同一组字符(“单词”)出现在两个不同的同义词集中时,它实际上并不是同一个单词——它是一个以相同方式拼写的不同单词,或者在至少是一种不同的感觉。例如,["mine", "deposit", "supply"] 中的 "mine" 与 ["mine", "dig up"] 中的 "mine" 不是同一个词,与 [ “我的”,“你的”] - 所以在它们之间有优势是没有意义的。没有同义词集之间的边,你只有一大组小的、不相交的图。
  • @Nick,同样不是专家,但他们通常不是按含义分组的。您不能使用集合之间的常用词来确定如何从一个词中选择哪个集合用于创建图形吗?您必须识别单词/含义对并将它们联系起来,而不仅仅是单词。
【解决方案3】:

可能的破解:将这两个词发送到 Google 搜索,然后返回找到的页面数。

【讨论】:

  • @Ben - 本质上,它的作用是计算单词共有的文档数量。对于高度选择性的词,这可能有一些优点,但对于不是很好的文档鉴别器的词,您可能会得到与非常密切相关的词的零相关性。
猜你喜欢
  • 2013-04-28
  • 2014-11-29
  • 2020-08-05
  • 1970-01-01
  • 2014-02-28
  • 2010-10-30
  • 2013-07-17
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多