【发布时间】:2013-10-02 18:39:50
【问题描述】:
我已经在Calculating Word Proximity in an inverted Index 提出了类似的问题。 但是我觉得这个问题太笼统了,不够精致。就这样吧。
我有一个列表,其中包含文档中标记的位置。对于每个令牌,它都是
public List<int> hitLocation;
假设文档是
Java programming language has a name similar to java island in Indonesia however
local language in java bears no resemblance to the programming language called java.
查询是
java island language
假设我锁定 Java HitList 并尝试直接计算 Java HisList、Island HitList 和 Language Hitlist 之间的距离。
现在第一个问题是句子中有 4 个 java 标记出现。我选择哪一个。假设我选择了第一个。
我进入 island 令牌列表,经过比较发现它与第二次出现的 java.lang.所以我改变了我的选择并锁定了 java 的第二次出现。
继续第三种标记语言,我发现它与我们的选择相距很远,但我发现它离第一个 java 出现很近。
因此,如果现在再次恢复到原始选择,即 java 的第一次出现,到第二个标记“岛”的距离增加,并且如果我坚持我当前的选择,那么你会在这里看到两难选择的第二次出现的绝对距离令牌“语言”将使相关性破坏。
以前有过点积的建议,但是我不知道如何继续使用该选项。
也欢迎任何其他解决方案。
我知道这个问题很详细。但是,我进行了长时间的艰苦搜索,并没有发现任何关于这个主题的问题。
我觉得如果这个问题得到解答,这将是对社区的一个很好的补充,并且会让任何设计与相关性相关的东西的人都非常高兴。
谢谢。
【问题讨论】:
-
好吧,伙计们,我意识到我正在回答我自己的问题,而且有点晚了。所以对于那些试图从倒排索引开始计算单词接近度的人应该看看这个链接ardendertat.com/2011/05/31/…
标签: algorithm indexing search-engine information-retrieval relevance