使用 ElasticSearch 索引网页时跳过常见/重复部分答案

【问题标题】：Skip common/duplicate parts while indexing web pages with ElasticSearch使用 ElasticSearch 索引网页时跳过常见/重复部分
【发布时间】：2015-01-20 01:14:26
【问题描述】：

我还没有任何使用 ElasticSearch 的经验，但根据我的阅读，我认为它最适合我的需求。我有一个网络抓取工具，它可以抓取某些域的页面。我想将这些页面提供给 SE，并提供一个前端界面来搜索抓取的内容。我正在构建某种垂直搜索引擎。

但众所周知，一个主机的网页往往只包含一点点独特的内容，很大一部分页面是通用的。每一页的页脚、页眉、菜单等都是一样的。

ElasticSearch 是否具有一些内置智能功能，可以过滤掉常用部分并仅搜索真实内容？

【问题讨论】：

标签： elasticsearch

【解决方案1】：

您需要在此处采用的策略是为每个文档创建一个唯一的密钥。使用 sha1 或类似算法获取校验和将完成获取唯一密钥的工作。将此作为文档 ID，以便始终只出现一页。如果您不想索引新的重复项（更高效），请再次使用 _create API 来索引，如果您希望新的重复项成为文档，请使用普通索引。

如果发现重复文档需要修改原始文档，请使用upser。

我已经在blog 中解释了很多。

【讨论】：

【解决方案2】：

将 Web 内容注入 Elastic 并不难，所以我假设您已经掌握了这一点。 =)

我认为这篇文章非常适合理解如何索引/搜索网页：

http://blog.urx.com/urx-blog/2014/9/4/the-science-of-crawl-part-1-deduplication-of-web-content

这是一个复杂的问题，他们有一些非常详细的信息。在 Elastic 中，我所知道的没有任何智能可以帮助您消除重复等。

【讨论】：