【问题标题】:Checkpoint RDD ReliableCheckpointRDD has different number of partitions from original RDD检查点 RDD ReliableCheckpointRDD 的分区数与原始 RDD 不同
【发布时间】:2016-01-19 05:51:46
【问题描述】:

我有一个由两台机器组成的 spark 集群,当我运行 spark 流应用程序时出现以下错误:

Exception in thread "main" org.apache.spark.SparkException: Checkpoint RDD ReliableCheckpointRDD[11] at print at StatefulNetworkWordCount.scala:78(1) has different number of partitions from original RDD MapPartitionsRDD[10] at updateStateByKey at StatefulNetworkWordCount.scala:76(2)
    at org.apache.spark.rdd.ReliableRDDCheckpointData.doCheckpoint(ReliableRDDCheckpointData.scala:73)
    at org.apache.spark.rdd.RDDCheckpointData.checkpoint(RDDCheckpointData.scala:74)

如何在不是 HDFS/Cassandra/任何其他数据存储的文件系统上提供检查点目录?

我想到了两种可能的解决方案,但我不知道如何编码:

  1. 有一个远程目录,两个工作人员都在本地

  2. 为两个工作人员指定一个远程目录

有什么建议吗?

【问题讨论】:

    标签: apache-spark spark-streaming apache-spark-ml


    【解决方案1】:

    好的,所以我可以继续使用第一个选项。

    我在所有工作人员上安装了一个远程目录作为检查点,它运行良好。

    How to mount the remote checkpoint directory on the workers:
    
    sudo apt-get install sshfs
    Load it to kernel
    
    sudo modprobe fuse
    
    sudo adduser username fuse
    
    mkdir ~/checkpoint
    
    sshfs ubuntu@xx.xx.x.xx:/home/ubuntu/checkpoint ~/checkpoint
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-02-17
      • 2019-06-16
      • 1970-01-01
      • 2020-09-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多