（2）pyspark建立RDD以及读取文件成dataframe

别人的相关代码文件：https://github.com/bryanyang0528/hellobi/tree/master/pyspark

（1）SparkSession 是 Spark SQL 的入口。

（2）通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。

Builder 是 SparkSession 的构造器。通过 Builder, 可以添加各种配置。

（2）pyspark建立RDD以及读取文件成dataframe

（3）在 SparkSession 的内部，包含了SparkContext， SharedState，SessionState 几个对象。

（2）pyspark建立RDD以及读取文件成dataframe

2、建立RDD：

创建RDD的两种方法：
1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))

（2）pyspark建立RDD以及读取文件成dataframe

3、从text中读取，read.text

（2）pyspark建立RDD以及读取文件成dataframe

4、从csv中读取:read.csv

（2）pyspark建立RDD以及读取文件成dataframe

5、从json中读取：read.json

（2）pyspark建立RDD以及读取文件成dataframe

7、RDD与Dataframe的转换

（1）dataframe转换成rdd：

法一：datardd = dataDataframe.rdd

法二：datardd = sc.parallelize(_)

（2）rdd转换成dataframe：

dataDataFrame = spark.createDataFrame(datardd)

（2）pyspark建立RDD以及读取文件成dataframe