【发布时间】:2015-05-05 10:50:00
【问题描述】:
我正在使用 Spark 流处理放置在 HDFS 中的文件。具体使用JavaStreamingContext类的textFileStream方法。
由于方法名称包含“文本”,我认为这只会读取文本文件,但令我惊讶的是,它还读取了 gzip 压缩的文本文件。
谁能澄清这是否是预期的行为以及它可以读取的所有格式?
【问题讨论】:
标签: java apache-spark
我正在使用 Spark 流处理放置在 HDFS 中的文件。具体使用JavaStreamingContext类的textFileStream方法。
由于方法名称包含“文本”,我认为这只会读取文本文件,但令我惊讶的是,它还读取了 gzip 压缩的文本文件。
谁能澄清这是否是预期的行为以及它可以读取的所有格式?
【问题讨论】:
标签: java apache-spark
是的,Spark 使用 Hadoop 的文件 I/O API,它透明地处理压缩格式。即使对于输出,您也可以通过属性设置配置应使用的压缩,API 将处理它。
【讨论】: