1.当反复使用某些RDD时建议使用persist(缓存级别)(采用默认缓存级别时为cache())来对数据进行缓存。

  2.如果某个步骤的RDD计算特别耗时或经历很多步骤的计算,当重新计算时代价特别大,此时应考虑使用checkpoint,对DAG做检查点,将中间结果保存到高可用(一般是HDFS)的地方。

相关文章:

  • 2021-12-19
  • 2022-12-23
  • 2022-12-23
  • 2021-08-27
  • 2021-08-02
  • 2022-12-23
猜你喜欢
  • 2021-07-14
  • 2021-08-20
  • 2022-12-23
  • 2021-06-09
  • 2021-09-02
  • 2021-10-14
  • 2020-03-30
相关资源
相似解决方案