一、读取csv文件

1.用pandas读取

import pandas as pd
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("test").getOrCreate()
f=pd.read_csv("filePath")
df=spark.createDataFrame(f)

但是pandas和spark数据转换的时候速度很慢,所以不建议这么做

2.直接读取

spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")

 

相关文章:

  • 2021-06-03
  • 2022-03-04
  • 2021-08-31
  • 2021-09-09
  • 2021-12-11
  • 2021-05-18
  • 2021-08-10
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-07-31
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案