【发布时间】:2017-09-15 22:09:15
【问题描述】:
我对 Spark 比较陌生,我正在尝试从 Spark 数据集中过滤掉无效记录。 我的数据集如下所示:
| Id | Curr| Col3 |
| 1 | USD | 1111 |
| 2 | CNY | 2222 |
| 3 | USD | 3333 |
| 1 | CNY | 4444 |
在我的逻辑中,每个 ID 都有一个有效货币。所以基本上会是id->currency的地图
val map = Map(1 -> "USD", 2 -> "CNY")
我想从数据集中过滤掉 Id 与有效货币代码不对应的行。所以在我的过滤操作之后,数据集应该是这样的:
| Id | Curr| Col3 |
| 1 | USD | 1111 |
| 2 | CNY | 2222 |
这里的限制是我不能使用 UDF。 有人可以帮我想出一个过滤操作吗?
【问题讨论】:
标签: scala apache-spark