【问题标题】:Is spark able to read only column values satisfying some condition from parquet file?spark 是否能够从 parquet 文件中仅读取满足某些条件的列值?
【发布时间】:2019-12-30 19:52:13
【问题描述】:

我有密码

val count = spark.read.parquet("data.parquet").select("foo").where("foo > 3").count

我很感兴趣 spark 是否能够以某种方式下推过滤器并从 parquet 文件中仅读取满足 where 条件的值。在这种情况下我们可以避免全扫描吗?

【问题讨论】:

标签: apache-spark parquet


【解决方案1】:

简短的回答是肯定的,在这种情况下,但不是所有情况。

您可以尝试 .explain 并亲自查看。

这是一个很好的参考文档,可以在 Internet 上免费获得,我从过去学到了一些东西:https://db-blog.web.cern.ch/blog/luca-canali/2017-06-diving-spark-and-parquet-workloads-example

【讨论】:

  • @thebluephantom..感谢分享如此精彩的链接。我是 Parquet 新手,它对我有很大帮助
  • 这是一本非常好的读物。如果您认为答案是可以的,您需要接受事实上的勾号。
  • 如果可以的话,我希望我不是这个问题的所有者。因此只是赞成:-)
  • 是的,这是经过深思熟虑的。
猜你喜欢
  • 1970-01-01
  • 2011-10-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-10-31
  • 2020-10-28
  • 2020-08-17
相关资源
最近更新 更多