【发布时间】:2018-03-06 13:07:28
【问题描述】:
我是 ElasticSearch 的新手,想在继续之前看看是否可行。
我有两个索引(不一定是,它们的结构可能不同)。
为简单起见,这些索引包含带有标题的文档。
即
{
"_index": "source1",
"_type": "document",
"_id": "1",
"_version": 2,
"found": true,
"_source": {
"title": "Defendant: SMITH, JOHN. Charge: Murder."
}
}
{
"_index": "source2",
"_type": "document",
"_id": "1",
"_version": 1,
"found": true,
"_source": {
"title": "SMITH, John Edward"
}
}
每个索引大约有 20-30,000 行,总共大约有 6 个索引。
我需要比较所有索引中的所有文档,并根据标题中的单词找出最有可能匹配的文档(主要是查看标题中的名称)。
基本上我需要在不知道搜索词的情况下进行搜索。
我将在 ElasticSearch 中使用 NEST。有人能指出我正确的方向吗?谢谢。
【问题讨论】:
-
最有可能根据标题中的单词进行匹配 - 区分大小写/不区分大小写?单词应该进行词干化和词形还原吗?是否应该考虑同义词?相关性评分是否有一些门槛?一个简单(天真)的第一种方法可能是使用更像这个查询:elastic.co/guide/en/elasticsearch/reference/5.6/…
标签: elasticsearch nest