【问题标题】:How do I use fileStream to stream parquet files? [duplicate]如何使用 fileStream 流式传输镶木地板文件? [复制]
【发布时间】:2016-05-28 00:36:05
【问题描述】:

我正在尝试将 parquet 文件流式传输到 Spark,但我不知道如何使用 StreamingContext 的 fileStream 方法。

感谢任何帮助。

【问题讨论】:

    标签: hadoop apache-spark spark-streaming hadoop2 parquet


    【解决方案1】:

    基于Spark Streaming Documentation

    streamingContext.textFileStream(dataDirectory)

    Spark Streaming 将监视目录 dataDirectory 并处理在该目录中创建的任何文件(不支持写入嵌套目录中的文件)。请注意

    文件必须具有相同的数据格式。 必须通过将文件原子地移动或重命名到数据目录中来在 dataDirectory 中创建文件。 移动后,不得更改文件。因此,如果文件被连续追加,则不会读取新数据。 对于简单的文本文件,有一个更简单的方法 streamingContext.textFileStream(dataDirectory)。并且文件流不需要运行接收器,因此不需要分配内核。

    【讨论】:

    • 我想流式传输镶木地板文件,而不是文本文件。
    • fileStream 支持多种 InputFormat。您可以使用 ParquetInputFormat。看看这个:github.com/Parquet/parquet-mr/tree/master/parquet-hadoop/src/…
    • 我不明白如何使用它。我是否需要创建自己的类,例如 Group ,然后是我自己的 ReadSupport ,然后是我自己的 RecordMaterializer 等等?我不明白KVF 这三种类型是如何工作的。见this question
    猜你喜欢
    • 2018-08-08
    • 2016-06-16
    • 1970-01-01
    • 1970-01-01
    • 2021-09-24
    • 1970-01-01
    • 1970-01-01
    • 2021-12-06
    • 2017-01-18
    相关资源
    最近更新 更多