【发布时间】:2016-01-01 04:43:57
【问题描述】:
所以假设我有一个 3000 行的 rdd。前 2000 行属于 1 类,最后 1000 行属于 2 类。 RDD 被划分为 100 个分区。
拨打RDD.randomSplit(0.8,0.2)时
该函数是否也对 rdd 进行洗牌?我们的拆分是否只是连续采样 rdd 的 20%?还是随机选择20%的分区?
理想情况下,生成的拆分与原始 RDD 具有相同的类分布。 (即 2:1)
谢谢
【问题讨论】:
标签: apache-spark rdd