【发布时间】:2019-01-08 07:05:36
【问题描述】:
我知道 Spark Streaming 会产生一批 RDD,但我想积累一个随着每批更新的大数据帧(通过在末尾附加新的数据帧)。
有没有办法像这样访问所有历史流数据?
我见过 mapWithState() 但我没有见过它专门积累数据帧。
【问题讨论】:
标签: apache-spark dataframe apache-spark-sql spark-streaming
我知道 Spark Streaming 会产生一批 RDD,但我想积累一个随着每批更新的大数据帧(通过在末尾附加新的数据帧)。
有没有办法像这样访问所有历史流数据?
我见过 mapWithState() 但我没有见过它专门积累数据帧。
【问题讨论】:
标签: apache-spark dataframe apache-spark-sql spark-streaming
虽然 Dataframe 在底层实现为 RDD 批次,但 Dataframe 以非离散无限行流的形式呈现给应用程序。没有“批量数据帧”,因为有“批量 RDD”。
不清楚你想要什么样的历史数据。
【讨论】: