仅检索数据时的 Hadoop 性能答案

【问题标题】：Hadoop Performance When retrieving Data Only仅检索数据时的 Hadoop 性能
【发布时间】：2016-12-08 22:00:24
【问题描述】：

我们知道通过添加更多数据节点可以提高 Hadoop 的性能。我的问题是：如果我们只想检索数据而不需要对其进行处理或分析，那么添加更多数据节点是否有用？或者它根本不会提高性能，因为我们只有检索操作而没有任何计算或 map reduce 作业？

【问题讨论】：

标签： hadoop

【解决方案1】：

我会尽量分部分回答：

如果您只从 hadoop 集群或 HDFS 检索信息，那么类似于linux中的Cat命令，意思是只读取数据未处理。
如果您需要一些计算，如 SUM、AVG 或任何其他聚合数据之上的函数然后是 REDUCE 的概念，因此 Map reduce 应运而生。
所以当您的数据非常庞大并且您这样做时，hadoop 很有用或值得计算也。我认为他们没有性能优势，而在 HDFS 中读取少量数据比读取大量数据 HDFS 中的数据（就像您将数据存储在 RDBMS 中一样）定期，您每天只查询 select * 语句），但是当你的数据呈指数增长并且你想做执行 RDBMS 查询的计算需要时间。
要使 Map reduce 有效地处理庞大的数据集，您需要拥有大量节点和计算能力，具体取决于您的用例。

【讨论】：