【问题标题】:spark submit failed with spark streaming workdcount python code火花提交失败,火花流工作量 python 代码
【发布时间】:2015-04-07 06:28:53
【问题描述】:

我刚刚复制了spark streaming wodcount python代码,使用spark-submit在Spark集群中运行wordcount python代码,但是显示如下错误:

py4j.protocol.Py4JJavaError: An error occurred while calling o23.loadClass.
: java.lang.ClassNotFoundException: org.apache.spark.streaming.kafka.KafkaUtilsPythonHelper
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)

我确实构建了 jar spark-streaming-kafka-assembly_2.10-1.4.0-SNAPSHOT.jar。我使用以下脚本提交: bin/spark-submit /data/spark-1.3.0-bin-hadoop2.4/wordcount.py --master spark://192.168.100.6:7077 --jars /data/spark-1.3.0-bin-hadoop2 .4/kafka-assembly/target/spark-streaming-kafka-assembly_*.jar。

提前致谢!

【问题讨论】:

    标签: apache-spark apache-kafka spark-streaming spark-streaming-kafka


    【解决方案1】:

    实际上,我刚刚意识到您在脚本之后包含了 --jars。 除非在脚本名称之前指定 jar,否则不会包含 jar 文件。 所以使用 spark-submit --jars spark-streaming-kafka-assembly_2.10-1.3.1.jar Script.py而不是 spark-submit Script.py --jars spark-streaming-kafka-assembly_2.10-1.3.1.jar。

    【讨论】:

      【解决方案2】:

      我必须在我的命令中引用许多 jar 才能使其正常工作,也许尝试明确引用 jar,它可能无法从您构建的 jar 中正确提取它。

                      /opt/spark/spark-1.3.1-bin-hadoop2.6/bin/spark-submit --jars /root/spark-streaming-kafka_2.10-1.3.1.jar,/usr/hdp/2.2.4.2-2/kafka/libs/kafka_2.10-0.8.1.2.2.4.2-2.jar,/usr/hdp/2.2.4.2-2/kafka/libs/zkclient-0.3.jar,/root/.m2/repository/com/yammer/metrics/metrics-core/2.2.0/metrics-core-2.2.0.jar  kafka_wordcount.py kafkaAddress:2181 topicName     
      

      实际上它看起来好像没有拿起这个jar:kafka_2.10-0.8.1.2.2.4.2-2.jar

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-10-02
        • 2015-11-06
        相关资源
        最近更新 更多