【发布时间】:2018-05-17 22:30:23
【问题描述】:
我有一个 RDD[(String,Array[String])],我需要复制里面的数据来增加它的大小。
我在这里读过https://stackoverflow.com/a/41787801/9759150,使用replacemente 你可以在样本中获得相同的元素两次。
例如:
如果 RDD.count() 是 35 个元素,我需要从中生成一个包含 200 个元素的 RDD。我该怎么做?
我看到应用示例是这样的:
val sampledRDD = rdd.sample(true, fraction, seed)
我不知道如何为我的问题选择fraction 参数。
谢谢!
【问题讨论】:
标签: scala apache-spark