【发布时间】:2017-06-07 00:15:48
【问题描述】:
我有一个数据集,在某些行中,属性值为NaN。该数据被加载到数据框中,我只想使用由所有属性都有值的行组成的行。我尝试通过 sql 进行操作:
val df_data = sqlContext.sql("SELECT * FROM raw_data WHERE attribute1 != NaN")
我对此尝试了几种变体,但似乎无法使其正常工作。
另一种选择是将其转换为 RDD,然后对其进行过滤,因为过滤此数据帧以检查属性 isNaN 是否不起作用。
【问题讨论】:
标签: scala apache-spark apache-spark-sql