【发布时间】:2017-11-21 06:23:24
【问题描述】:
有一个数据集 imputedcsv,我想将 Gender 列中的空值随机替换为 Male 或 Female..
imputedcsv.groupBy("Gender").count.show()
+------+-----+
|Gender|count|
+------+-----+
| null| 24|
|Female| 240|
| Male| 242|
+------+-----+
一个用单个值填充空值,但是如何从一组值中随机填充列的空值说{Male,Female}
imputedcsv.na.fill("Male", Seq("Gender")).groupBy("Gender").count.show()
+------+-----+
|Gender|count|
+------+-----+
|Female| 240|
| Male| 266|
+------+-----+
我需要用Male 或Female 随机填充它,而不是只用一个值Male 替换空值。
类似于使用sample(c('Male','Female'))
对于单个值,我们有 How to replace null values with a specific value in Dataframe using spark in Java?
感谢任何帮助。
【问题讨论】:
标签: apache-spark apache-spark-sql spark-dataframe