【发布时间】:2011-04-29 13:33:12
【问题描述】:
我想构建一个能够将查询映射到概念的内部搜索引擎(我有一个包含数千个 XML 文件的非常大的集合)。例如,如果我搜索“大猫”,我希望排名靠前的结果也能返回带有“大猫”的文档。但我可能也有兴趣让它返回“巨大的动物”,尽管相关性分数要低得多。
我目前正在阅读 Python 中的自然语言处理一书,似乎 WordNet 有一些可能被证明有用的单词映射,但我不确定如何将其集成到搜索引擎中。我可以使用 Lucene 来做到这一点吗?怎么样?
从进一步的研究来看,“潜在语义分析”似乎与我正在寻找的内容相关,但我不确定如何实现它。
关于如何完成这项工作的任何建议?
【问题讨论】:
标签: python search lucene nlp lsa