apache spark Streaming textFileStream - 读取gzip文件答案

【问题标题】：apache spark Streaming textFileStream - reading gzip filesapache spark Streaming textFileStream - 读取gzip文件
【发布时间】：2015-05-05 10:50:00
【问题描述】：

我正在使用 Spark 流处理放置在 HDFS 中的文件。具体使用JavaStreamingContext类的textFileStream方法。

由于方法名称包含“文本”，我认为这只会读取文本文件，但令我惊讶的是，它还读取了 gzip 压缩的文本文件。

谁能澄清这是否是预期的行为以及它可以读取的所有格式？

【问题讨论】：

标签： java apache-spark

【解决方案1】：

是的，Spark 使用 Hadoop 的文件 I/O API，它透明地处理压缩格式。即使对于输出，您也可以通过属性设置配置应使用的压缩，API 将处理它。

【讨论】：