【发布时间】:2017-11-19 12:28:11
【问题描述】:
我正在尝试编写将 RDD 转换为数据集的示例 Apache Spark 程序。但在这个过程中,我得到了编译时错误。
这是我的示例代码和错误:
代码:
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.sql.Dataset
object Hello {
case class Person(name: String, age: Int)
def main(args: Array[String]){
val conf = new SparkConf()
.setAppName("first example")
.setMaster("local")
val sc = new SparkContext(conf)
val peopleRDD: RDD[Person] = sc.parallelize(Seq(Person("John", 27)))
val people = peopleRDD.toDS
}
}
我的错误是:
value toDS is not a member of org.apache.spark.rdd.RDD[Person]
我添加了 Spark 核心和 Spark SQL jar。
我的版本是:
火花 1.6.2
斯卡拉 2.10
【问题讨论】:
标签: scala hadoop apache-spark dataset rdd