【发布时间】:2017-03-10 01:41:13
【问题描述】:
您好,我有以下格式的 RDD(所有值都是字符串)
rdd1 = [(g1, p1, t1, e1, i1, v1),
(g1, p1, t1, e2, i2, v2),
(g1, p1, t1, e3, i3, v3),
(g1, p1, t1, e4, i4, v4),
(g2, p2, t2, e3, i3, v3),
(g2, p2, t2, e4, i4, v4)...]
我想把它转换成下面的格式
rdd2 = [(g1, p1, t1, "e1.i1.v1|e2.i2.v2|e3.i3.v3|e4.i4.v4"),
(g2, p2, t2, "e3.i3.v3|e4.i4.v4")...]
因此,基于 g、p 和 t 值,我想展开 RDD,并且我想将 e.i.v 值管道分隔在同一行中。您可以将 g、p 和 t 作为结果元组的键。
【问题讨论】:
标签: scala apache-spark rdd