【发布时间】:2022-02-07 22:51:57
【问题描述】:
我正在尝试过滤地图功能。基本上,我在经典 map-reduce 中这样做的方式是,当过滤条件满足时,mapper 不会将任何内容写入上下文。我怎样才能用火花实现类似的效果?我似乎无法从 map 函数返回 null,因为它在 shuffle 步骤中失败。我可以使用过滤器功能,但似乎没有必要对数据集进行迭代,而我可以在地图期间执行相同的任务。我也可以尝试使用虚拟键输出 null,但这是一个糟糕的解决方法。
【问题讨论】:
-
您能添加说明问题的示例代码吗?
标签: java apache-spark