【问题标题】:Why Hadoop or Spark? There is ElasticSearch为什么选择 Hadoop 或 Spark?有弹性搜索
【发布时间】:2015-05-26 00:02:05
【问题描述】:

其实这里也有类似的问题:https://stackoverflow.com/questions/23922404/elasticsearch-hadoop-why-would-i

但答案并不能真正让我满意。

我的问题很简单:

  1. 既然存在 ElasticSearch,我们为什么要使用 Hadoop 或 Spark?
  2. Hadoop 或 Spark 拥有而 ElasticSearch 没有什么?
  3. 如果算法是答案,我相信我在创建算法方面并不比 Kimchy 好。在 Hadoop 或 Spark 中,我们需要创建自己的算法。再说一遍,为什么还是 Hadoop 或 Spark?
  4. 回答说:“Elasticsearch 是一个分布式搜索引擎,不应该用作数据仓库。”

为什么不应该将其用作数据仓库

谢谢你和最好的问候,

Rizki Sunaryo

【问题讨论】:

    标签: hadoop elasticsearch apache-spark


    【解决方案1】:

    我远不是分布式计算方面的专家,但我在这里遗漏了什么,还是你在比较两个完全不同的东西?

    Hadoop 是一个分布式批处理计算平台,允许您运行数据提取和转换管道。 ES 是一个搜索和分析引擎(或数据聚合平台),允许您为 Hadoop 作业的结果编制索引以进行搜索。

    所以一个完整的管道应该是这样的:

    数据 --> Hadoop/Spark(MapReduce 或其他范式)--> 精选数据 --> ElasticSearch/Lucene/SOLR/etc.

    您可能只是想提取和/或转换数据,而没有使用弹性搜索。您可能还处于您的数据源不需要分布式批处理范例或不能很好地使用分布式批处理范例的情况下,在这种情况下,hadoop 对您没有用处。

    您可能会感到困惑的是,ES 提供了 elasticsearch-hadoop,可以直接插入 Hadoop 为您提供“一体化”解决方案。

    希望比我知识渊博的人也能参与进来。

    【讨论】:

    • 是的,你是对的。 ES 目前在数据转换方面仍然受到限制。但这并不意味着 ES 将来不能这样做,对吧?如果ES能够在未来做到这一点呢?我们还需要 Hadoop 还是 Spark?
    • 就像说的那样,ES 正在解决一个完全不同的问题,即数据聚合和索引。由于您已经在 Hadoop 和 Spark 中拥有强大且经过验证的工具来解决 Extract&Transform 问题,我真的不明白为什么 ES 会尝试自己制作。是的,它们经常一起使用,但这并不意味着它们应该合并为一个(特别是如果你相信模块化的话)。话虽如此,你可以说没有什么是不可能的......
    【解决方案2】:

    我也在问自己同样的问题,我认为这几乎可以回答我们现在的问题:

    Elasticsearch 已经开始扩展到搜索引擎之外,并添加了一些用于分析和可视化的功能,但它的核心仍然主要是一个全文搜索引擎,并且作为查询的一部分对复杂计算和聚合提供的支持较少。

    所以这取决于您的用例(如此多的文本分析 -> Elk;如此多的聚合和计算 -> spark) 虽然很模糊:

    Elasticsearch 和 Apache Hadoop/Spark 可能会在一些非常有用的功能上重叠,但每个工具都有特定的用途,我们需要选择最适合给定要求的工具。如果我们只是想通过关键字定位文档并执行简单的分析,那么 ElasticSearch 可能适合这项工作。如果我们有大量数据需要各种不同类型的复杂处理和分析,那么 Hadoop 提供了最广泛的工具和最大的灵活性。但好消息是我们不限于一次只使用一种工具或技术。我们总是可以根据我们需要的结果进行组合。众所周知,Hadoop 和 Elasticsearch 结合起来效果最好。未来,随着这些技术的扩展速度,这些界限将变得更加模糊。

    参考:

    https://thecustomizewindows.com/2017/02/apache-hadoop-spark-vs-elasticsearch-elk-stack/

    【讨论】:

      猜你喜欢
      • 2014-06-18
      • 2011-12-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-11-22
      • 2019-11-13
      • 2017-01-04
      相关资源
      最近更新 更多