【发布时间】:2016-05-28 00:36:05
【问题描述】:
我正在尝试将 parquet 文件流式传输到 Spark,但我不知道如何使用 StreamingContext 的 fileStream 方法。
感谢任何帮助。
【问题讨论】:
标签: hadoop apache-spark spark-streaming hadoop2 parquet
我正在尝试将 parquet 文件流式传输到 Spark,但我不知道如何使用 StreamingContext 的 fileStream 方法。
感谢任何帮助。
【问题讨论】:
标签: hadoop apache-spark spark-streaming hadoop2 parquet
基于Spark Streaming Documentation:
streamingContext.textFileStream(dataDirectory)
Spark Streaming 将监视目录 dataDirectory 并处理在该目录中创建的任何文件(不支持写入嵌套目录中的文件)。请注意
文件必须具有相同的数据格式。 必须通过将文件原子地移动或重命名到数据目录中来在 dataDirectory 中创建文件。 移动后,不得更改文件。因此,如果文件被连续追加,则不会读取新数据。 对于简单的文本文件,有一个更简单的方法 streamingContext.textFileStream(dataDirectory)。并且文件流不需要运行接收器,因此不需要分配内核。
【讨论】:
Group ,然后是我自己的 ReadSupport ,然后是我自己的 RecordMaterializer 等等?我不明白K、V、F 这三种类型是如何工作的。见this question