【问题标题】:Elastic search Term Vector API's Field Statistics MeaningElasticsearch 术语向量 API 字段统计含义
【发布时间】:2020-10-25 17:37:05
【问题描述】:

在弹性搜索文档中,在 Term Vectors API 下

Field statistics
Setting field_statistics to false (default is true) will omit :

document count (how many documents contain this field)
sum of document frequencies (the sum of document frequencies for all terms in this field)
sum of total term frequencies (the sum of total term frequencies of each term in this field)

我不明白这部分。

我一直在尝试,但无论我如何检查,我都不知道这些字段代表什么。

据我了解,文档数是包含该字段的文档数(例如字段=名称),总词频的总和是该字段中所有词的总词数,但我没有准确得到字段。

检查我的主索引,我有一个特定的字段(title.keyword)。我假设当我设置 /index_sample/_termvectors/1?fields=title.keyword 时,我应该得到具有该字段的文档总数(doc_count = 45,000),但它返回的数量比我除了(doc_count = 17,000)。

谁能用一些简单的例子向我解释一下?几乎没有这方面的第三方文档,这让我抓狂。

谢谢!

【问题讨论】:

    标签: elasticsearch elastic-stack term-vectors


    【解决方案1】:

    AFAIK,术语向量 API 获取有关所提供文档的术语向量的信息。要获取索引级别信息(非常昂贵),请查看我的插件 - https://github.com/nirmalc/es-termstat 或 jprante 的插件:https://github.com/jprante/elasticsearch-index-termlist

    【讨论】:

    • 我不明白每个字段统计值之间的差异。是否有不同的文档可供我更好地阅读?我会调查你和 jprante 的插件。我相信它在分析我的索引时会非常有用。
    猜你喜欢
    • 2016-01-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-05-17
    • 2022-01-03
    • 2014-05-12
    相关资源
    最近更新 更多