如何使用 fileStream 流式传输镶木地板文件？ [复制]答案

【问题标题】：How do I use fileStream to stream parquet files? [duplicate]如何使用 fileStream 流式传输镶木地板文件？ [复制]
【发布时间】：2016-05-28 00:36:05
【问题描述】：

我正在尝试将 parquet 文件流式传输到 Spark，但我不知道如何使用 StreamingContext 的 fileStream 方法。

感谢任何帮助。

【问题讨论】：

标签： hadoop apache-spark spark-streaming hadoop2 parquet

【解决方案1】：

基于Spark Streaming Documentation：

streamingContext.textFileStream(dataDirectory)

Spark Streaming 将监视目录 dataDirectory 并处理在该目录中创建的任何文件（不支持写入嵌套目录中的文件）。请注意

文件必须具有相同的数据格式。必须通过将文件原子地移动或重命名到数据目录中来在 dataDirectory 中创建文件。移动后，不得更改文件。因此，如果文件被连续追加，则不会读取新数据。对于简单的文本文件，有一个更简单的方法 streamingContext.textFileStream(dataDirectory)。并且文件流不需要运行接收器，因此不需要分配内核。

【讨论】：

我想流式传输镶木地板文件，而不是文本文件。
fileStream 支持多种 InputFormat。您可以使用 ParquetInputFormat。看看这个：github.com/Parquet/parquet-mr/tree/master/parquet-hadoop/src/…
我不明白如何使用它。我是否需要创建自己的类，例如 Group ，然后是我自己的 ReadSupport ，然后是我自己的 RecordMaterializer 等等？我不明白K、V、F 这三种类型是如何工作的。见this question