【问题标题】:How to get aggregated data for a particular day in spark structured streaming如何在 Spark 结构化流中获取特定日期的聚合数据
【发布时间】:2019-02-10 01:22:05
【问题描述】:

我有一个 spark 结构化的蒸汽作业,它从 kafka 读取流并将输出写入 HDFS。 我的问题是我需要一整天的汇总结果,直到特定时间。 由于 spark 结构化流不支持完整/更新模式,有没有办法实现相同的功能?

如果我在上午 10 点获得数据,我需要一个汇总结果,直到当前日期上午 10 点...

有人可以帮助实现同样的目标吗?

【问题讨论】:

    标签: spark-structured-streaming spark-streaming-kafka


    【解决方案1】:

    我不确定我是否了解具体情况,但让我试着回答一下。

    我建议进行两步流程:

    1. Spark 流式传输将小批量保存到格式为:
    2. 的临时文件夹

    /yyy-mm-dd/<offset from the day start>.parquet

    2019-02-06/100000.parquet, 2019-02-06/200000.parquet

    1. 另一个 spark 作业从相应位置读取并进行聚合和时间过滤。

    您可以使用 luigi 之类的库来管理这些。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-08-20
      • 2019-02-17
      • 2019-08-09
      • 1970-01-01
      • 2019-10-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多