【发布时间】:2018-03-05 02:48:15
【问题描述】:
我正在开发一个宠物搜索引擎 (SE)。
我现在拥有的是布尔关键字 SE,作为一个分为两部分的库:
索引:这是一个倒排索引,即。它将术语与出现的原始文档相关联
查询:由用户提供,可以是任意复杂的布尔表达式,类似于
(mobile OR android OR iphone) AND game
我想改进搜索引擎,以某种方式自动将简单查询扩展到布尔查询,以便它包含未出现在原始查询中的搜索词,即。我想支持同义词。
我需要一些帮助来构建同义词图表。
如何计算出现在相似上下文中的单词列表?
这是我要计算的同义词列表示例:
- psql、pgsql、postgres、postgresql
- 手机、iphone、安卓
还有包含 ngram 的同义词,例如:
- rdbms、关系数据库管理系统、...
算法不一定要完美,我可以手动对结果进行后处理,但至少我需要知道哪些术语与其他术语相似。
【问题讨论】:
-
我想你想做的事情叫“probabilistic topic-modeling”,但无法回答这个问题。
标签: nlp full-text-search artificial-intelligence text-mining word2vec