【发布时间】:2014-06-11 06:39:40
【问题描述】:
我有一个 TSV/CSV 数据集(超过 100gb),我需要将数据集拆分为列数据集。一个例子:一个 n 行 m 列的输入数据集需要输出 m 个数据集,每个数据集有一列 n 行。
输入 1 个数据集
a b c
x y z
1 v a
输出 3 个数据集
dataset1 : a x 1
dataset2 : b y v
dataset3 : c z a
【问题讨论】:
-
您的输出需要在文件中,因为 100Gb 很难放入内存中。
标签: java python csv mapreduce dataset