【问题标题】:Finding the roots of a word in java using wordnet使用wordnet在java中查找单词的根源
【发布时间】:2012-03-08 15:06:55
【问题描述】:

我知道 wordnet 中的上位词,但由于每个术语都有很多含义,我不得不使用 Lesk 算法来查找单词的上下文含义。

在这个过程中,我看到了question。我正在尝试实现这个被指定为答案的算法。

但我的主要问题是找到“两个节点之间的节点数倒数的乘积”

我如何找到两个单词之间的节点数。

当我尝试使用上位词时,它会返回一组单词,这些单词比层次结构中的当前单词高一级

示例:如果我使用应用程序这个词。 Wordnet 建议 6 种含义,每种含义都有一组词根,现在我应该将哪个词视为层次结构中的下一级

for the 1th meaning of application the hypernyms are 
request petition postulation 
for the 2th meaning of application the hypernyms are 
use usage utilization utilisation employment exercise 
for the 3th meaning of application the hypernyms are 
program programme computer program computer programme 
for the 4th meaning of application the hypernyms are 
manual labor manual labour 
for the 5th meaning of application the hypernyms are 
remedy curative cure therapeutic 
for the 6th meaning of application the hypernyms are 
effort elbow grease exertion travail sweat 

现在我应该考虑哪个词作为层次结构中的下一个词来构建到根以便找到距离?

请帮忙,我急需

【问题讨论】:

    标签: java wordnet jaws-wordnet word-sense-disambiguation


    【解决方案1】:

    您链接到的算法对我来说似乎有点令人困惑。我假设您与提出问题的其他人的目标相同:为一个词找到合适的同义词。这个任务可以分为两个步骤:

    1. 消除您要查找同义词的词的歧义,因此您最终会得到一个意义
    2. 获取它的同义词

    即使您需要访问上位词,也应先执行第 1 步,使用 Lesk algorithmsimplified versionalternatives 之一。那么你就只有那个意义上的上位词了。

    为了消除歧义,您不需要计算节点距离(至少作为 Lesk 的一部分),您只需要比较每个节点的光泽度即可找到最可能的含义。如果不清楚或者我没有正确回答问题,请随时发表评论。

    【讨论】:

    • 谢谢 .. 但是如果我必须追踪从单词到词根的路径,我将在每个级别都有许多上位词 .. 示例 .. 对于应用程序这个词,(我从上下文中整理出它关于计算机的信息)。现在下一个级别将是(比如说)计算机。这反过来将有 3-4 个上位词 ..(wordnet 给出机器,计算器)。现在我该如何消除歧义.. 我没有一句话可以消除歧义
    • 你确定吗?对于每个 sense(即作为程序的应用程序)Wordnet 只有 一个 直接上位词。这个上位词由许多词(称为同义词集)表示对您来说并不重要,它仍然是一个直接上位词,请参见此处:wordnetweb.princeton.edu/perl/… 和这里来自继承的上位词(仍然只有一个链):wordnetweb.princeton.edu/perl/…
    • 哦,非常感谢。由于它返回一个数组,我认为它们是不同的上位词。现在我想我会盲目地使用第一个上位词并继续。可以吗?
    • 在不知道您使用的是哪个 API 的情况下很难分辨。通常你使用特定的同义词集来调用它,你得到的是一个类,而不是一个字符串数组。
    • 我使用 JAWS 。它为每个同义词返回一个同义词数组(上位词)。
    猜你喜欢
    • 1970-01-01
    • 2023-03-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-05-20
    • 1970-01-01
    • 2013-07-14
    • 1970-01-01
    相关资源
    最近更新 更多