【发布时间】:2018-02-15 17:22:35
【问题描述】:
我是spark新手,我想计算每列的空率,(我有200列),我的功能如下:
def nullCount(dataFrame: DataFrame): Unit = {
val args = dataFrame.columns.length
val cols = dataFrame.columns
val d=dataFrame.count()
println("Follows are the null value rate of each columns")
for (i <- Range(0,args)) {
var nullrate = dataFrame.rdd.filter(r => r(i) == (-900)).count.toDouble / d
println(cols(i), nullrate)
}
}
但是我发现它太慢了,有没有更有效的方法来做到这一点?
【问题讨论】:
-
我将null值设置为-900以避免模型训练中的infor丢失
标签: apache-spark null spark-dataframe