【发布时间】:2019-03-23 02:49:24
【问题描述】:
我通过以下方式创建了一个 DataFrame:
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.getOrCreate()
df = spark.read.csv("train.csv", header=True)
我的 DataFrame 的架构如下:
root
|-- PassengerId: string (nullable = true)
|-- Survived: string (nullable = true)
|-- Pclass: string (nullable = true)
|-- Name: string (nullable = true)
|-- Sex: string (nullable = true)
|-- Age: string (nullable = true)
|-- SibSp: string (nullable = true)
|-- Parch: string (nullable = true)
|-- Ticket: string (nullable = true)
|-- Fare: string (nullable = true)
|-- Cabin: string (nullable = true)
|-- Embarked: string (nullable = true)
如何更改 DataFrame 每一列的数据类型?
我知道我可以在调用 csv() 时指定架构选项,但我想在稍后阶段更改数据类型。
某些列有缺失值。 Spark DataFrames 如何处理缺失值?
【问题讨论】:
标签: apache-spark pyspark