【问题标题】:Hadoop Performance When retrieving Data Only仅检索数据时的 Hadoop 性能
【发布时间】:2016-12-08 22:00:24
【问题描述】:

我们知道通过添加更多数据节点可以提高 Hadoop 的性能。我的问题是:如果我们只想检索数据而不需要对其进行处理或分析,那么添加更多数据节点是否有用?或者它根本不会提高性能,因为我们只有检索操作而没有任何计算或 map reduce 作业?

【问题讨论】:

    标签: hadoop


    【解决方案1】:

    我会尽量分部分回答:

    1. 如果您只从 hadoop 集群或 HDFS 检索信息,那么 类似于linux中的Cat命令,意思是只读取数据 未处理。
    2. 如果您需要一些计算,如 SUM、AVG 或任何其他聚合 数据之上的函数然后是 REDUCE 的概念, 因此 Map reduce 应运而生。
    3. 所以当您的数据非常庞大并且您这样做时,hadoop 很有用或值得 计算也。我认为他们没有性能优势,而 在 HDFS 中读取少量数据比读取大量数据 HDFS 中的数据(就像您将数据存储在 RDBMS 中一样) 定期,您每天只查询 select * 语句), 但是当你的数据呈指数增长并且你想做 执行 RDBMS 查询的计算需要时间。
    4. 要使 Map reduce 有效地处理庞大的数据集,您需要 拥有大量节点和计算能力,具体取决于您的 用例。

    【讨论】:

      猜你喜欢
      • 2020-06-06
      • 2011-09-16
      • 2011-03-28
      • 2016-10-09
      • 2012-02-21
      • 2019-02-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多