【发布时间】:2017-03-01 07:06:17
【问题描述】:
我是 apache crunch 的新手,正在寻找在 apache crunch 中读写 Parquet 文件。 我遵循了文档和 API,但没有得到直接的方法/方法来做同样的事情。
PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "Orange");
PCollection<Integer> b = pipeLine.parallelDo(new DoFn<String, Integer>() {
private static final long serialVersionUID = 1L;
@Override
public void process(String input, Emitter<Integer> emitter) {
emitter.emit(input.length());
}
}, ints());
b.write(new AvroParquetFileTarget("D:\\Tutorials\\CCP_WorkSpace\\Crunch\\resources\\output"));
提前致谢。
【问题讨论】:
-
您能否使用您尝试过的方法和您遵循的文档链接来编辑您的问题。另外,粘贴不起作用的代码。 :)
-
PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "Orange"); PCollection<Integer> b = pipeLine.parallelDo(new DoFn<String, Integer>() { private static final long serialVersionUID = 1L; @Override public void process(String input, Emitter<Integer> emitter) { emitter.emit(input.length()); } }, ints()); b.write(new AvroParquetFileTarget("D:\\Tutorials\\WorkSpace\\Crunch\\resources\\output")); } -
感谢@SagarKulkarni 的回复,上面是正在尝试的代码。
-
请使用带有适当缩进的代码编辑您的问题。 :)
-
@SagarKulkarni 我已经在问题框中添加了代码 sn-p,对造成的不便表示抱歉:)
标签: mapreduce hadoop2 parquet apache-crunch