【发布时间】:2015-07-14 07:06:35
【问题描述】:
我有一个JavaRDD<Model>,我需要将它写成多个具有不同布局的文件[RDD 中的一个或两个字段在不同布局之间会有所不同]。
当我使用saveAsTextFile()它调用模型的toString()方法时,这意味着相同的布局将被写入输出。
目前我正在做的是使用 map 转换方法迭代 RDD 并返回具有其他布局的不同模型,因此我可以使用 saveAsTextFile() 操作写入不同的输出文件。
由于一两个字段不同,我需要再次迭代整个RDD并创建新的RDD然后将其保存为输出文件。
例如:
具有字段的当前 RDD:
RoleIndicator、姓名、年龄、地址、部门
输出文件 1:
姓名、年龄、地址
输出文件 2:
RoleIndicator、姓名、年龄、部门
有没有最佳解决方案?
问候, 尚卡尔
【问题讨论】:
-
你需要两种不同格式的 2 个文件中的相同数据吗?
-
@VijayInnamuri : 有点类似,文件 1 的 RDD 中的字段很少,而文件 2 的 RDD 中的字段也很少,而且两个文件中很少有字段可以相同。
-
@VijayInnamuri:是的,基本上我在寻找相同的数据需要写入 2 个不同格式的 2 个文件?有可能吗?
标签: java apache-spark