【发布时间】:2021-12-10 19:57:42
【问题描述】:
我是 Databricks 中 Pyspark 的新手,所以这就是我在以下方面苦苦挣扎的原因: 我有一个数据框,其中包含数据类型为字符串的列。 一个示例(见下图)是 netto_resultaat 列。
要求是将此列和其他与财务相关的列从字符串更改为小数。这是因为我想在 Azure SQL 数据库中导出架构和数据。
我尝试了以下方法:
从 pyspark.sql.functions 导入 col 从 pyspark.sql.types 导入 DecimalType newouterjoindffinal = newouterjoindf.withColumn("netto_resultaat",col("netto_resultaat").cast(DecimalType())) newouterjoindffinal.printSchema()
结果是 netto_resultaat 列中的数字被转换为空。有些记录的数据为 -100,880 、 35,312,000 或 118,579,525。
有什么建议吗?
【问题讨论】: