【发布时间】:2019-08-13 17:29:18
【问题描述】:
当我们在 Elasticsearch 索引中搜索 Stormcrawler 爬取的结果时,人们不可避免地会将结果与 Google 进行比较,并且搜索结果与同一主题的 google 搜索相比是不利的。谷歌帮助确定各个页面排名的方法之一是跟踪任何给定页面的入站链接。
在考虑我们页面上的搜索结果并查看状态索引时,我遇到了 url.path 字段。 url.path 似乎包含通向当前页面的整个路径。
是否可以在索引中创建一个多值字段,该字段仅填充来自任何螺栓/函数生成 url.path 的最后一个 url。这样,该字段最终将成为直接链接到当前文档的所有页面的数组。
使用该信息,您可能会计算这些值并通过链接到它的所有页面了解当前文档的相对受欢迎程度。
Stormcrawler 可以实现类似的功能吗?
【问题讨论】:
标签: elasticsearch stormcrawler