【问题标题】:How to save a JavaDStream as compressed (.gz) file?如何将 JavaDStream 保存为压缩 (.gz) 文件?
【发布时间】:2018-04-02 18:17:08
【问题描述】:

我是 Spark 流媒体的新手。我正在使用火花流 2.3.0。 我有一个 JavaDStream,我将其保存为文本文件,但我想将其保存为压缩 (.gz) 文件。

这是我的代码片段:

JavaDStream<String> dataStreams = stream.map(new Function<String, String>() {

        public String call(String lines) throws Exception {

            //code


            return lines;
        }

    }  );
dataStreams.dstream().saveAsTextFiles(outputDir, "txt");

【问题讨论】:

    标签: java apache-spark spark-streaming file-comparison


    【解决方案1】:

    在 dstream 中的每个 rdd 上,调用 saveAsTextFile() 如下:

    rdd.saveAsTextFile("组合", classOf[GzipCodec])

    或在 Spark 应用级别:

    sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])

    【讨论】:

    • 嗨 Stivan,感谢您的解决方案,我可以通过 rdd.saveAsTextFile("Combined", classOf[GzipCodec]) 保存压缩文件。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-02-16
    • 2016-07-15
    • 2011-03-18
    • 2015-09-10
    • 1970-01-01
    相关资源
    最近更新 更多