【发布时间】:2011-01-20 11:29:39
【问题描述】:
我正在有效地尝试解决与这个问题相同的问题:
Finding related words (specifically physical objects) to a specific word
减去单词代表物理对象的要求。答案和编辑过的问题似乎表明,一个好的开始是使用维基百科文本作为语料库来构建 n-gram 频率列表。在我开始下载庞大的维基百科转储之前,有谁知道这样的列表是否已经存在?
PS 如果上一个问题的原始发帖人看到了这一点,我很想知道你是如何解决这个问题的,因为你的结果看起来很棒:-)
【问题讨论】: