【发布时间】:2018-02-09 05:05:59
【问题描述】:
任何人都可以向我解释为什么这两个表达式得到不同的结果吗?我正在尝试在 2 个日期之间进行过滤:
df.filter("act_date <='2017-04-01'" and "act_date >='2016-10-01'")\
.select("col1","col2").distinct().count()
结果:37M
对
df.filter("act_date <='2017-04-01'").filter("act_date >='2016-10-01'")\
.select("col1","col2").distinct().count()
结果:25M
它们有何不同?在我看来,它们应该产生相同的结果
【问题讨论】:
标签: python apache-spark dataframe pyspark apache-spark-sql