【问题标题】:Fast keyword extraction in elasticsearchelasticsearch中的快速关键字提取
【发布时间】:2014-03-04 11:53:22
【问题描述】:

我有一个存储在弹性搜索数据库中的大型图像注释数据库。我想使用这个数据库进行关键字提取。输入是文本(通常是报纸文章)。我对算法的基本想法是遍历文章中的每个术语,并使用弹性搜索来发现该术语在图像注释中的频率。然后从不常用的文章中输出术语(为了比常见的英文单词更喜欢人名或地名)。

我不需要非常复杂的东西,这些关键字仅用作用户输入的建议,但我想要更快的东西,然后向弹性搜索询问 N 个搜索查询(其中 N 是文本中的术语数),这可能会很慢大文本。在 elasticsearch 中是否有一些强大而快速的关键字提取技术?

【问题讨论】:

    标签: elasticsearch nlp keyword-search


    【解决方案1】:

    您可以为此使用弹性搜索term aggregations。他们可以返回带有指示其相对频率的文档计数的分桶关键字。这是 YML 中的示例查询。

    query:
        match:
            annotation:
                query: text of your article
    aggregations:
        term_frequencies:
            terms:
                field: annotation
    

    【讨论】:

    • 这对我的数据非常有效。得到一堆停用词。为此需要不同的方法。
    猜你喜欢
    • 2020-09-24
    • 2010-12-20
    • 1970-01-01
    • 1970-01-01
    • 2023-03-23
    • 1970-01-01
    • 2021-11-05
    • 2017-02-04
    相关资源
    最近更新 更多