【发布时间】:2019-10-22 13:21:14
【问题描述】:
我将数据保存为 HDFS 上的单个分区(以字节为单位),当我想使用以下代码获取数据内容时,collect 在单个数据分区中比first 花费更多时间。
JavaRDD<String> mytext = sc.textFile("...");
List<String> lines = mytext.collect();
我期待 collect 和 first 花费相同的时间。然而,对于 HDFS 单个分区中的数据,collect 比 first 慢。
这背后的原因可能是什么?
【问题讨论】:
-
为什么检索第一条记录需要与检索所有数据相同的时间?
-
由于数据非常小或很小
collect几乎是第一次的 3 倍
标签: java apache-spark hdfs