【问题标题】:Elastic Search Indexing the Internet为 Internet 编制索引的弹性搜索
【发布时间】:2014-01-15 04:24:23
【问题描述】:

这主要是弹性搜索的设计模式问题。

如果我想使用 Elastic Search 为 Internet 编制索引,组织此类任务的最有效方法是什么?

@kimchy 讨论了不同的模式,Rafal Kuc 讨论了扩展大规模集群,但是看了这些之后我并没有了解如何组织互联网的索引。

我认为从逻辑上讲,您可以通过为每个域创建一个新索引来组织这样的工作。因此,您可以在 Stackoverflow.com 等索引上大量分片,但对于 momandpopsite.com 等索引可能只有 1 个分片

在您的 ES 社区看来,这是否有效?我不确定,因为我们可以很快进入数百万个索引,更不用说它们各自的分片了。现在我想知道这种类型的设计是否会产生很多开销,并且会变得臃肿。 (也就是说,这种模式的结构是否会产生过多的开销?)。

我知道这个问题必须是理论上的,因为没有指定资源。但是,如果您可以发挥您的想象力并尝试纯粹地坚持设计策略——您将如何索引万维网?假设有 2.75 亿个域。使用 Elastic Search 对 Internet 进行索引的最有效设计模式是什么?

【问题讨论】:

    标签: elasticsearch


    【解决方案1】:

    每个域的索引(因此 2.75 亿个索引)是不可行的。索引确实有开销,而且我丢失了参考,但我认为您不希望在单个“正常”服务器上超过 ~100 个索引。

    要将更多站点放入单个索引中,您可能需要引入路由和视图,但我认为所有内容的单个索引也会引入不必要的开销。我猜,但是查找的路由规则可能会变得非常大等等。所以你会想找到一些方法来跨索引拆分东西。在如此大的容量下,您无法在纸上进行全部设计,因此我建议 PoC 工作以确定您为不同大小的索引获得什么样的性能。然后,您将寻求使用别名正确映射到基础索引。

    进一步阅读: https://groups.google.com/forum/#!searchin/elasticsearch/index$20per$20user/elasticsearch/i-G5NlP1VeY/PK9vVP0myAgJ

    https://groups.google.com/forum/#!msg/elasticsearch/9L5cWIAib94/K7zdHEW-4P0J

    【讨论】:

    • 非常有趣的@brent,谢谢。今晚晚些时候我会深入研究这些网站。
    猜你喜欢
    • 2016-10-24
    • 1970-01-01
    • 1970-01-01
    • 2017-12-23
    • 2017-10-19
    相关资源
    最近更新 更多