别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark

(1)SparkSession 是 Spark SQL 的入口。

(2)通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。

Builder 是 SparkSession 的构造器。 通过 Builder, 可以添加各种配置。

(2)pyspark建立RDD以及读取文件成dataframe

(3)在 SparkSession 的内部, 包含了SparkContext, SharedState,SessionState 几个对象。

(2)pyspark建立RDD以及读取文件成dataframe

 

(2)pyspark建立RDD以及读取文件成dataframe

2、建立RDD:

创建RDD的两种方法:
1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))

(2)pyspark建立RDD以及读取文件成dataframe


3、从text中读取,read.text

(2)pyspark建立RDD以及读取文件成dataframe

(2)pyspark建立RDD以及读取文件成dataframe

(2)pyspark建立RDD以及读取文件成dataframe

4、从csv中读取:read.csv

(2)pyspark建立RDD以及读取文件成dataframe

5、从json中读取:read.json

(2)pyspark建立RDD以及读取文件成dataframe


7、RDD与Dataframe的转换 

(1)dataframe转换成rdd:

法一:datardd = dataDataframe.rdd

法二:datardd = sc.parallelize(_)

(2)rdd转换成dataframe:

dataDataFrame = spark.createDataFrame(datardd)

(2)pyspark建立RDD以及读取文件成dataframe

(2)pyspark建立RDD以及读取文件成dataframe

(2)pyspark建立RDD以及读取文件成dataframe

 

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-08-22
  • 2022-12-23
  • 2022-12-23
  • 2021-11-06
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-08
  • 2022-12-23
相关资源
相似解决方案