pyspark处理数据技巧

1. 求某一列的最小最大值

data.agg(F.min("dt"), F.max("dt")).show()

或者用data.describe(['dt']).show()

spark_train = spark.createDataFrame(X_train)

是struct<type:tinyint,size:int,indices:array<int>,values:array<double>>

很多时候不能直接操作，例如求和或者保存csv，此时需要进行转化，

如下可以转成一个vector用于求和。

首先将features转为一个string：f2。

然后对f2进行split，得到f3。再对f3求和，得到f4。

pyspark处理数据技巧

今天用pyspark的iforest程序，fit的时候出错。排查了一下午，终于发现问题是由于里边有空值。

利用上面的求和，可以发现有大量的空值。

pyspark处理数据技巧