【发布时间】:2019-04-08 08:56:01
【问题描述】:
我用 Java 编写了一个简单的代码来读取 csv 文件,对行稍作更改(使用哈希),然后写入输出文件。
我想比较代码的顺序版本(纯 java)和 MapReduce 版本。 (代码没有太大区别)。
我尝试了伪分布式hadoop(单节点)和完全分布式hadoop(3个节点)的代码,但令我惊讶的是,MapReduce版本的执行时间总是高于顺序(大约两倍或三次) )。
我在 Hadoop 方面没有太多经验,但至少分布式处理应该比串行处理花费更少的时间(因为这就是我们有分布式处理的原因)。我什至尝试了不同的数据集大小。
【问题讨论】:
-
对可能非常大的 csv 文件尝试相同的设置,以利用 hadoop 在分发时所做的开销
标签: java hadoop mapreduce hadoop2