为了实现容错,需要做checkpoint。以Streaming为例,checkpoint中有两种数据:

1. Metadata checkpointing:用于恢复driver端出错的情况。其中包含:

   (1) Configuration  用于创建Streaming应用所需要的配置信息

   (2)DStream Operations:Streaming应用中定义的所有操作

   (3)Imcomplete Batches:已经排队的,但是尚未完成的batch

2. Data checkpointing:保存生成的RDD,主要用于一些有状态的transfermation操作。比如新的RDD需要上一批次的RDD的结果。

 

由此我们可以得出以下情况需要进行checkpoint

1. 用到有状态的transformation时,如:updateStateByKey,reduceByKeyAndWindow

2. driver端发生错误,需要恢复的情况

相关文章:

  • 2021-11-01
  • 2021-12-19
  • 2021-10-10
  • 2022-12-23
  • 2022-12-23
  • 2021-07-12
  • 2021-06-21
猜你喜欢
  • 2022-01-22
  • 2021-10-04
  • 2021-10-15
  • 2021-11-07
  • 2021-09-22
  • 2021-10-27
  • 2021-09-02
相关资源
相似解决方案