AWS Glue PySpark 无法计算记录答案

【问题标题】：AWS Glue PySpark can't count the recordsAWS Glue PySpark 无法计算记录
【发布时间】：2018-05-05 20:20:10
【问题描述】：

当我尝试提取 1 个表时，我正在使用 AWS Glue 从 EC2 (Postgre) 中提取数据以进行转换并将其放在 S3 上。我收到如下错误：

有什么我可以做的吗？我尝试删除 null 字段或 fillna，但这些都不起作用。

更新：我什至选择了一个字符串类型的列，但仍然遇到同样的错误：

【问题讨论】：

因为屏幕截图的最后一行描述了问题（NaN 表示 bigdecimal）
是的，但是我不知道错误指的是哪一列，即使我选择了字符串类型的列，它仍然会产生同样的错误。

标签： amazon-web-services apache-spark pyspark aws-glue

【解决方案1】：

你能试试吗，df.isnull().any() 或 df.isnull().sum()。这应该有助于我们查看包含无效 NaN 数据的列。另外请尝试使用df.count(dropna = False) / df.na.drop() 获取记录数。请参考here，其中详细解释了处理空列数据。

希望这会有所帮助。

【讨论】：