【问题标题】:DataFilter vs PushedFilter in Spark?Spark中的DataFilter与PushedFilter?
【发布时间】:2022-01-24 04:13:17
【问题描述】:

b/w DataFilter 与 PushedFilter 有什么区别?

当不使用分区过滤器时,如果发生谓词下推,我希望过滤器转到 PushedFilter。这正在按预期发生。我还在物理计划中找到了DataFilter

我想知道查询中的DataFilter 是什么?它与 PushedFilter 有何不同?

【问题讨论】:

    标签: apache-spark pyspark


    【解决方案1】:

    与将文件读入内存然后应用过滤器(这会浪费 CPU 周期和带宽)相反,可以在从裸机读取文件时过滤数据。这就是 DataFilter。

    【讨论】:

    • “从裸机读取文件时过滤”当我们对数据进行分区时会发生这种情况吗?在这种情况下,DataFilterPushedFilter 都将为空,而我们将拥有 PartitionFilter
    • 从 2022 年开始,我将不再发表评论。要么你觉得答案好不好……
    猜你喜欢
    • 2021-05-26
    • 1970-01-01
    • 2022-01-03
    • 2016-12-13
    • 2014-10-19
    • 2016-08-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多