【问题标题】:Skip common/duplicate parts while indexing web pages with ElasticSearch使用 ElasticSearch 索引网页时跳过常见/重复部分
【发布时间】:2015-01-20 01:14:26
【问题描述】:

我还没有任何使用 ElasticSearch 的经验,但根据我的阅读,我认为它最适合我的需求。我有一个网络抓取工具,它可以抓取某些域的页面。 我想将这些页面提供给 SE,并提供一个前端界面来搜索抓取的内容。我正在构建某种垂直搜索引擎。

但众所周知,一个主机的网页往往只包含一点点独特的内容,很大一部分页面是通用的。每一页的页脚、页眉、菜单等都是一样的。

ElasticSearch 是否具有一些内置智能功能,可以过滤掉常用部分并仅搜索真实内容?

【问题讨论】:

    标签: elasticsearch


    【解决方案1】:

    您需要在此处采用的策略是为每个文档创建一个唯一的密钥。使用 sha1 或类似算法获取校验和将完成获取唯一密钥的工作。将此作为文档 ID,以便始终只出现一页。如果您不想索引新的重复项(更高效),请再次使用 _create API 来索引,如果您希望新的重复项成为文档,请使用普通索引。

    如果发现重复文档需要修改原始文档,请使用upser。

    我已经在blog 中解释了很多。

    【讨论】:

      【解决方案2】:

      将 Web 内容注入 Elastic 并不难,所以我假设您已经掌握了这一点。 =)

      我认为这篇文章非常适合理解如何索引/搜索网页:

      http://blog.urx.com/urx-blog/2014/9/4/the-science-of-crawl-part-1-deduplication-of-web-content

      这是一个复杂的问题,他们有一些非常详细的信息。在 Elastic 中,我所知道的没有任何智能可以帮助您消除重复等。

      【讨论】:

        猜你喜欢
        • 2016-05-21
        • 2015-11-15
        • 2014-05-31
        • 1970-01-01
        • 2015-02-26
        • 1970-01-01
        • 2012-03-24
        • 1970-01-01
        • 2014-11-18
        相关资源
        最近更新 更多