【问题标题】:How can I accumulate Dataframes in Spark Streaming?如何在 Spark Streaming 中累积数据帧?
【发布时间】:2019-01-08 07:05:36
【问题描述】:

我知道 Spark Streaming 会产生一批 RDD,但我想积累一个随着每批更新的大数据帧(通过在末尾附加新的数据帧)。

有没有办法像这样访问所有历史流数据?

我见过 mapWithState() 但我没有见过它专门积累数据帧。

【问题讨论】:

    标签: apache-spark dataframe apache-spark-sql spark-streaming


    【解决方案1】:

    虽然 Dataframe 在底层实现为 RDD 批次,但 Dataframe 以非离散无限行流的形式呈现给应用程序。没有“批量数据帧”,因为有“批量 RDD”。

    不清楚你想要什么样的历史数据。

    【讨论】:

    • 说每批 RDD 是这样的:123、456、789 .. 我想将所有这些收集到一个数据帧中,或者以某种方式将所有这些 RDD 组合成一个数据帧,比如 123456789。 ..所有新数据都附加到这个数据框。并且在添加新数据后应该可以立即访问此数据框。这样做的主要原因是我可以重新拟合一个需要迄今为止看到的所有数据的模型。
    猜你喜欢
    • 1970-01-01
    • 2016-12-22
    • 2014-09-06
    • 1970-01-01
    • 1970-01-01
    • 2018-08-13
    • 1970-01-01
    • 1970-01-01
    • 2020-01-26
    相关资源
    最近更新 更多