【发布时间】:2020-08-09 01:34:51
【问题描述】:
为什么 Spark 显示 nullable = true,但未指定模式并将其推断留给 Spark?
// shows nullable = true for fields which are present in all JSON records.
spark.read.json("s3://s3path").printSchema()
通过类JsonInferSchema,可以看到对于StructType,显式可空设置为true。但我无法理解其背后的原因。
PS:我的目标是推断大型 JSON 数据集(Schema Inference for Massive JSON Datasets。一个主要部分是我想知道哪些字段是可选的,哪些是强制性的(w.r.t 数据集)。
【问题讨论】:
标签: json dataframe apache-spark jsonschema