【发布时间】:2021-05-31 15:44:23
【问题描述】:
大的全事实表加入增量事实表有问题,我知道Bloom Filter是减少加入行数的好选择,但是Bloom UDF实现很少,我只能找到brickhouse的Bloom UDF,并且用起来不是很够用,需要先读取小表,将bloom数据加载到本地目录,以后再使用。 那么,有没有更好的布隆过滤器 UDF 实现可以直接在 Hive 中使用(只需上传 JAR)?谢谢。
【问题讨论】:
-
ORC 已嵌入布隆过滤器
-
@leftjoin 是的,谢谢提及,但我不确定如果我们只是为表设置“orc.bloom.filter.columns”="xx",orc 的bloom 是否会在join 中起作用。试过了吗,好用吗?
-
我已经尝试并注意到仅在 ORC 加载排序后有所改进。
标签: hive user-defined-functions bloom-filter