【问题标题】:spark.read.schema return null for dataframe column values [duplicate]spark.read.schema 为数据框列值返回 null [重复]
【发布时间】:2022-01-18 05:09:18
【问题描述】:

我有一些小问题希望火花大师可以帮助我

我有镶木地板文件 person.parquet,它有一行多列。其中一列“Middle Name”在列名中有空格,这会在将其写入镶木地板格式时导致 spark 问题

我所做的是重命名列以删除空格,如下所示

SourceData = SourceData.withColumnRenamed("Middle Name","MiddleName")

如果我尝试将 SourceData 写入 parquet 文件,它仍然返回错误

Caused by: org.apache.spark.sql.AnalysisException: Attribute name "Middle Name" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.

所以我使用下面解决问题的方法

SourceData = spark.read.schema(SourceData.schema).parquet(TestingPath)

但不幸的是,生成的文件中列 MiddleName 的值为空。

关于如何解决这个问题的任何建议?

【问题讨论】:

  • 顺便说一句,我已经尝试过类似问题的解决方案stackoverflow.com/questions/38191157/…
  • 我找到了解决方案,即 1)使用 pandas 而不是 spark 读取 parquet 文件 2)将其转换为 spark 数据框 3)将列名中有空格的“中间名”列重命名为“ MiddleName”的想法是不要使用 spark 读取镶木地板

标签: apache-spark schema rename alias invalid-characters


【解决方案1】:

尝试用一对反引号 (`) 引用列名。

`Middle Name`

【讨论】:

    猜你喜欢
    • 2016-09-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-03
    • 1970-01-01
    • 2013-09-20
    • 2011-02-07
    相关资源
    最近更新 更多