【问题标题】:apache spark Streaming textFileStream - reading gzip filesapache spark Streaming textFileStream - 读取gzip文件
【发布时间】:2015-05-05 10:50:00
【问题描述】:

我正在使用 Spark 流处理放置在 HDFS 中的文件。具体使用JavaStreamingContext类的textFileStream方法。

由于方法名称包含“文本”,我认为这只会读取文本文件,但令我惊讶的是,它还读取了 gzip 压缩的文本文件。

谁能澄清这是否是预期的行为以及它可以读取的所有格式?

【问题讨论】:

    标签: java apache-spark


    【解决方案1】:

    是的,Spark 使用 Hadoop 的文件 I/O API,它透明地处理压缩格式。即使对于输出,您也可以通过属性设置配置应使用的压缩,API 将处理它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-10-08
      • 2015-04-27
      • 2015-06-08
      • 1970-01-01
      • 1970-01-01
      • 2016-05-05
      • 2015-02-04
      • 2019-02-08
      相关资源
      最近更新 更多