【发布时间】:2016-10-31 16:35:16
【问题描述】:
我有一个 Spark RDD,其中每个元素都是 (key, input) 形式的元组。我想使用pipe 方法将输入传递给外部可执行文件并生成(key, output) 形式的新RDD。稍后我需要关联的密钥。
以下是使用 spark-shell 的示例:
val data = sc.parallelize(
Seq(
("file1", "one"),
("file2", "two two"),
("file3", "three three three")))
// Incorrectly processes the data (calls toString() on each tuple)
data.pipe("wc")
// Loses the keys, generates extraneous results
data.map( elem => elem._2 ).pipe("wc")
提前致谢。
【问题讨论】:
标签: scala apache-spark rdd