【发布时间】:2015-06-01 19:04:06
【问题描述】:
下面有个问题说明:
//--------问题开始---------
考虑以下由三个句子组成的小型语料库:
The judge struck the gavel to silence the court. Buying the cheap saw is false
economy. The nail was driven in when the hammer struck it hard.
使用分布相似度来确定gavel这个词在均值上是否更相似—— ing 锤子或锯子。要计算分布相似度,您必须 (1) 使用词袋 在目标周围的一个±2窗口中作为特征,(2)不以任何方式改变上下文词 (例如,通过词干或删除停用词)和 (3) 使用 Dice 度量进行比较 特征向量。确保展示您工作的所有阶段。
//--------问题结束---------
我不明白 (1) 中的 ± 2 窗口是什么。有人会为我解释吗?非常感谢你们。
【问题讨论】:
-
我猜这意味着目标词周围有 2 个词的范围。所以对于“struck”,这将包括从“the”到“gavel”。
标签: vector nlp distribution