Stormcrawler / Elasticsearch 并跟踪页面的入站链接答案

【问题标题】：Stormcrawler / Elasticsearch and keeping track of inbound links to a pageStormcrawler / Elasticsearch 并跟踪页面的入站链接
【发布时间】：2019-08-13 17:29:18
【问题描述】：

当我们在 Elasticsearch 索引中搜索 Stormcrawler 爬取的结果时，人们不可避免地会将结果与 Google 进行比较，并且搜索结果与同一主题的 google 搜索相比是不利的。谷歌帮助确定各个页面排名的方法之一是跟踪任何给定页面的入站链接。

在考虑我们页面上的搜索结果并查看状态索引时，我遇到了 url.path 字段。 url.path 似乎包含通向当前页面的整个路径。

是否可以在索引中创建一个多值字段，该字段仅填充来自任何螺栓/函数生成 url.path 的最后一个 url。这样，该字段最终将成为直接链接到当前文档的所有页面的数组。

使用该信息，您可能会计算这些值并通过链接到它的所有页面了解当前文档的相对受欢迎程度。

Stormcrawler 可以实现类似的功能吗？

【问题讨论】：

标签： elasticsearch stormcrawler

【解决方案1】：

这可以通过对代码进行一些修改来实现。默认情况下，我们只保留有关已发现 URL 的信息，包括指向它的路径，仅用于发现该 URL 的第一个实例。可以有多种实现方式，例如使用自定义 Bolt 将链接累积到 Redis 或 Graph DB。

您的基本问题是关于使用 Elasticsearch 进行相关性调整。这当然取决于爬虫发送了哪些字段，但不仅限于此。我知道一些 StormCrawler 用户使用 ES 作为 Google Search Appliance 的替代品并取得了巨大成功。有关内链的信息可能会有所帮助，但如果没有它，您应该能够获得不错的结果。

【讨论】：