【发布时间】:2014-03-18 06:49:11
【问题描述】:
我的递归目录结构具有不同数量的部分文件。我想在这些文件上应用 CoGroup。
假设,我的目录结构是这样的:
directory1/dir1/part-0000
/part-0001
/part-0002
dir2/part-0000
/part-0001
/part-0002
dir3/part-0000
/part-0001
/part-0002
dir4/part-0000
/part-0001
/part-0002
这些零件文件包含制表符分隔的数据,例如:field1 field2 field3 field4 field5
我想合并所有具有共同值field1、field3、field4 和field5 的零件文件。也就是说,最终输出文件将包含如下数据:
field1 field2_dir1_files field2_dir2_files field2_dir3_files field2_dir4_files field3 field4 field5
如果有任何 MapReduce 解决方案,不客气,我也会尝试 :)
使用 Cascading CoGroup API 将如何实现?
请帮我解决这个问题,我正在尝试从过去两周开始解决这个问题。
提前致谢!
【问题讨论】:
标签: hadoop mapreduce cascading