【发布时间】:2016-05-30 09:11:55
【问题描述】:
df.na().drop() 和 df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN()) 之间的语义有什么区别,df 是 Apache Spark Dataframe?
或者,如果第一个在 onlyColumnInOneColumnDataFrame 列中没有返回 null(不是字符串 null,而只是一个 null 值),而第二个没有返回,我是否应该将其视为错误?
编辑:也添加了!isNaN()。 onlyColumnInOneColumnDataFrame 是给定 Dataframe 中的唯一列。假设它的类型是Integer。
【问题讨论】:
-
您能提供一个示例数据吗?
-
我注意到那些
nulls 使用以下代码-gist.github.com/xjrk58/87dd094e2987ecc448db,但会尝试简化它并为输入数据提供可重现的案例。更准确地说,在第 4 行调用df.show()后,“definitionId”列包含null值。
标签: apache-spark apache-spark-sql