【发布时间】:2019-12-30 19:52:13
【问题描述】:
我有密码
val count = spark.read.parquet("data.parquet").select("foo").where("foo > 3").count
我很感兴趣 spark 是否能够以某种方式下推过滤器并从 parquet 文件中仅读取满足 where 条件的值。在这种情况下我们可以避免全扫描吗?
【问题讨论】:
标签: apache-spark parquet
我有密码
val count = spark.read.parquet("data.parquet").select("foo").where("foo > 3").count
我很感兴趣 spark 是否能够以某种方式下推过滤器并从 parquet 文件中仅读取满足 where 条件的值。在这种情况下我们可以避免全扫描吗?
【问题讨论】:
标签: apache-spark parquet
简短的回答是肯定的,在这种情况下,但不是所有情况。
您可以尝试 .explain 并亲自查看。
这是一个很好的参考文档,可以在 Internet 上免费获得,我从过去学到了一些东西:https://db-blog.web.cern.ch/blog/luca-canali/2017-06-diving-spark-and-parquet-workloads-example
【讨论】: