【发布时间】:2017-04-03 00:22:00
【问题描述】:
我有一个 .csv 文件,其中包含缺少值的行。这些值而不是null,由字符? 表示。
如果df.na.drop() 不起作用(因为缺少的值不是null),我如何删除至少包含一列值为? 的行?
数据如下所示(我有 35 列 - 可以在任何这些列中找到缺失值)
+-------+--------+------+-------+
| col_1 | col_2 | ... | col_35|
+-------+--------+------+-------+
| 0.75 | ? | ... | 15 |
| ? | Helen | ... | 21 |
| -1.2 | George | ... | ? |
| ? | Andrew | ... | 129 |
| 0.12 | Maria | ... | 12 | // Should not be deleted
+-------+--------+------+-------+
这是读取文件的代码。
val df = sparkSession.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("mode", "DROPMALFORMED")
.load("data.csv")
.toDF()
【问题讨论】:
标签: scala apache-spark missing-data