【发布时间】:2017-06-04 04:00:48
【问题描述】:
Spark 在 RDD 中创建逻辑分区。我有两个问题:-
1) 在谷歌上到处都说分区有助于并行处理,每个分区可以在单独的节点上处理。我的问题是我是否有多核 机器,我不能在同一个节点处理分区吗?
2) 假设我从文件系统中读取文件,并且 spark 创建了一个具有四个分区的 RDD。现在可以将每个分区进一步划分为 RDD 吗?例如:-
firstRDD=sc.textFile("hdfs://...")
//firstRDD contains four partition which are processed on four diff nodes
secondRDD=firstRDD.filter(someFunction);
// Now will each node create separate secondRDD which will have further paritions ?
【问题讨论】:
标签: java apache-spark