【问题标题】:AWS Glue PySpark can't count the recordsAWS Glue PySpark 无法计算记录
【发布时间】:2018-05-05 20:20:10
【问题描述】:

当我尝试提取 1 个表时,我正在使用 AWS Glue 从 EC2 (Postgre) 中提取数据以进行转换并将其放在 S3 上。我收到如下错误:

有什么我可以做的吗?我尝试删除 null 字段或 fillna,但这些都不起作用。

更新:我什至选择了一个字符串类型的列,但仍然遇到同样的错误:

【问题讨论】:

  • 因为屏幕截图的最后一行描述了问题(NaN 表示 bigdecimal)
  • 是的,但是我不知道错误指的是哪一列,即使我选择了字符串类型的列,它仍然会产生同样的错误。

标签: amazon-web-services apache-spark pyspark aws-glue


【解决方案1】:

你能试试吗,df.isnull().any()df.isnull().sum()。这应该有助于我们查看包含无效 NaN 数据的列。另外请尝试使用df.count(dropna = False) / df.na.drop() 获取记录数。请参考here,其中详细解释了处理空列数据。

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 2021-05-30
    • 1970-01-01
    • 2019-01-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-29
    • 2019-07-23
    • 1970-01-01
    相关资源
    最近更新 更多