一,创建RDD 最简单的方式就是把程序中一个已有的集合传给SparkContext 的parallelize()方法:

val lines = sc.parallelize(List("pandas", "i like pandas"))

二、更常用的方式是从外部存储中读取数据来创建RDD:

val lines = sc.textFile("/path/to/README.md")

 

相关文章: