【发布时间】:2012-04-27 21:56:03
【问题描述】:
我有一个过滤关键字列表(大约 1000 个),我需要使用这个列表过滤 pig 中的一个关系字段。
最初,我声明了这些关键字,例如: %declare p1 '.keyword1.'; …… ...
%declare p1000 '.keyword1000.';
然后我进行如下过滤:
Filtered= FITLER SRC BY (not $0 匹配 '$p1') and (not $0 匹配 '$p2') and ...... (not $0 匹配 '$p1000');
已过滤转储;
假设我的源关系在 SRC 中,我需要对第一个字段(即 $0)应用过滤。
如果我将过滤器的数量减少到 100-200,它工作正常。但是随着过滤器的数量增加到 1000。它不起作用。
有人可以建议一种解决方法来获得正确的结果吗?
提前致谢
【问题讨论】:
标签: filter hadoop apache-pig