【问题标题】:How to print the schema of a dataframe with Python objects rather than Java objects?如何使用 Python 对象而不是 Java 对象打印数据框的模式?
【发布时间】:2020-10-15 02:13:12
【问题描述】:

例如:

df = spark.read.json("path")
print(df.schema)

打印:

StructType(List(StructField(timestamp,StringType,true)))

而不是:

StructType([StructField("timestamp",StringType(),True)])

如果我想通过最初从文件中推断架构以便打印架构并将其硬编码到我的代码中来提出架构,这对我来说是一个问题。

有没有办法打印数据帧的架构并使用 python 语法,以便我可以将硬编码架构设置为代码中的变量并使用它?

【问题讨论】:

    标签: apache-spark pyspark apache-spark-sql


    【解决方案1】:

    理想情况下(schema = df.schema) 适用于 csv 等常见文件格式,但对于 json 等文件,最好手动提供架构以避免任何错误

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-03-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-12
      • 1970-01-01
      • 2021-11-02
      相关资源
      最近更新 更多