【问题标题】:Will duplicated documents impact search results?重复的文档会影响搜索结果吗?
【发布时间】:2018-10-23 00:50:22
【问题描述】:

重复的文档会影响搜索结果吗?

例如,我们有一个索引,我们可以让相同的文档重复,但只有一个字段不同。

索引:ChannelID、ProductID、ProductName 和 ProductDescription

我们可能在不同的 ChannelID 上拥有相同的产品。因此,如果我们有 100 个 ChannelID,如果该产品在所有渠道上都可用,我们将拥有 100 次相同的产品(文档)。

在进行搜索时,由于这些重复的文档(相同的产品名称、描述),是否会影响结果质量?

谢谢。

【问题讨论】:

    标签: azure-cognitive-search


    【解决方案1】:

    根据您的搜索,类似的文档都会出现在搜索结果中。例如,在您的“100 个不同的频道 ID 但相同的产品”示例中,如果按产品描述搜索(假设相同的产品获得相同的描述),如果搜索匹配,则该产品的所有 100 个文档都将返回,或者他们都不会。

    【讨论】:

    • 好的。如果我搜索跨渠道,我认为你是对的。如果我通过channelid过滤呢?我有一种感觉,它也会起作用。我担心的是搜索结果的质量。例如。因为我有 100 次产品 A 重复,因为它在其他 100 个频道上也可用,所以当我在该频道中进行搜索时,即使我正在过滤,因为产品 A 在数据库上有重复,它可能会在结果与在较少渠道上可用的其他产品相比。那么,这会影响结果质量吗?谢谢。
    • 多个文档中的相同字段通常不会提高它们的相关性,实际上在某些情况下可能会起到相反的作用(如果关键字很常见,则不太重要),这取决于您的实际查询计划使用
    猜你喜欢
    • 2020-10-20
    • 1970-01-01
    • 1970-01-01
    • 2016-11-11
    • 1970-01-01
    • 2021-02-18
    • 2015-04-20
    • 1970-01-01
    • 2011-09-25
    相关资源
    最近更新 更多