【发布时间】:2021-07-15 15:59:58
【问题描述】:
我有一个关于使用 pyspark 将架构加载到 cdsw 的查询。 我有一个使用 csv 文件创建的数据框
data_1 = spark.read.csv("demo.csv",sep = ",", header = True, inferSchema = True)
大多数变量的数据类型读取错误,即其中大约 60 个,我不能一直手动更改它们。我知道架构必须是什么样子。
有什么办法,我也可以从 csv 文件加载架构吗?就像它可以读取数据集并覆盖我正在上传的架构一样。
【问题讨论】:
标签: python-3.x apache-spark pyspark apache-spark-sql schema