【发布时间】:2016-01-21 22:29:54
【问题描述】:
我有一个要转换为 Spark RDD 的元组列表 (String, String, Int, Double)。
一般来说,如何将 Scala Iterable[(a1, a2, a3, ..., an)] 转换为 Spark RDD?
【问题讨论】:
标签: scala apache-spark rdd
我有一个要转换为 Spark RDD 的元组列表 (String, String, Int, Double)。
一般来说,如何将 Scala Iterable[(a1, a2, a3, ..., an)] 转换为 Spark RDD?
【问题讨论】:
标签: scala apache-spark rdd
有几种方法可以做到这一点,但最直接的方法就是使用 Spark Context:
import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._
sc.parallelize(YourIterable.toList)
我认为 sc.Parallelize 需要转换为 List,但它会保留您的结构,因此您仍然会得到 RDD[String,String,Int,Double]
【讨论】: