无法找到或加载主类 Spark Docker答案

【问题标题】：Could not find or load main class Spark Docker无法找到或加载主类 Spark Docker
【发布时间】：2018-06-14 20:31:02
【问题描述】：

我已经构建了 2 个具有不同主类的独立 jar 文件 - KafkaCheckinsProducer 和 SparkConsumer，它们都是具有主方法的对象。在 bash 脚本中，我启动了一个带有参数的 jar 文件。我有一个启动这个 bash 脚本的 Dockerfile。我用这个命令启动我的 Dockerfile：

docker run -v myvolume:/workdir built-image-name

我收到这样的错误消息：

Error: Could not find or load main class consumer.SparkConsumer

什么可能导致此错误，我该如何修复我的 Dockerfile 或 build.sbt？

这是我的 Dockerfile：

FROM java:8
ARG ARG_CLASS
ENV MAIN_CLASS $ARG_CLASS
ENV SCALA_VERSION 2.11.8
ENV SBT_VERSION 1.1.1
ENV SPARK_VERSION 2.2.0
ENV SPARK_DIST spark-$SPARK_VERSION-bin-hadoop2.6
ENV SPARK_ARCH $SPARK_DIST.tgz

WORKDIR /opt

# Install Scala
RUN \
  cd /root && \
  curl -o scala-$SCALA_VERSION.tgz http://downloads.typesafe.com/scala/$SCALA_VERSION/scala-$SCALA_VERSION.tgz && \
  tar -xf scala-$SCALA_VERSION.tgz && \
  rm scala-$SCALA_VERSION.tgz && \
  echo >> /root/.bashrc && \
  echo 'export PATH=~/scala-$SCALA_VERSION/bin:$PATH' >> /root/.bashrc

# Install SBT
RUN \
  curl -L -o sbt-$SBT_VERSION.deb https://dl.bintray.com/sbt/debian/sbt-$SBT_VERSION.deb && \
  dpkg -i sbt-$SBT_VERSION.deb && \
  rm sbt-$SBT_VERSION.deb


# Install Spark
RUN \
    cd /opt && \
    curl -o $SPARK_ARCH http://d3kbcqa49mib13.cloudfront.net/$SPARK_ARCH && \
    tar xvfz $SPARK_ARCH && \
    rm $SPARK_ARCH && \
    echo 'export PATH=$SPARK_DIST/bin:$PATH' >> /root/.bashrc


EXPOSE 9851 9852 4040 9092 9200 9300 5601 7474 7687 7473

VOLUME /workdir

CMD /workdir/runDemo.sh "$MAIN_CLASS"

Bash 脚本如下所示：

#!/usr/bin/env bash
if [ "$1" = "consumer" ]
then
    java -cp "target/scala-2.11/demo_consumer.jar" consumer.SparkConsumer $2 $3 $4
elif [ "$1" = "producer" ]
then
    java -cp "target/scala-2.11/full_demo_producer.jar" producer.KafkaCheckinsProducer $5 $3 $6 $7
else
    echo "Wrong parameter. It should be consumer or producer, but it is $1"
fi

这是一个 build.sbt，我通过更改主类名和 jar 名来构建两个 jar：

name := "DemoBuildTest"
version := "0.1"
scalaVersion := "2.11.8"

assemblyJarName in assembly := "demo_producer.jar"
mainClass in assembly := Some("producer.KafkaCheckinsProducer")

val sparkVersion = "2.2.0"
resolvers += "Spark Packages Repo" at "http://dl.bintray.com/spark-packages/maven"


dependencyOverrides += "com.fasterxml.jackson.core" % "jackson-core" % "2.9.5"
dependencyOverrides += "com.fasterxml.jackson.core" % "jackson-databind" % "2.9.5"
dependencyOverrides += "com.fasterxml.jackson.module" % "jackson-module-scala_2.11" % "2.9.5"

libraryDependencies ++= Seq(
  "org.apache.kafka" %% "kafka" % "1.1.0",
  "org.apache.spark" %% "spark-core" % sparkVersion % "provided",
  "org.apache.spark" %% "spark-sql" % sparkVersion % "provided",
  "org.apache.spark" %% "spark-streaming" % sparkVersion % "provided",
  "org.apache.spark" %% "spark-streaming-kafka-0-10" % sparkVersion,
  "com.typesafe" % "config" % "1.3.0",
  "org.neo4j.driver" % "neo4j-java-driver" % "1.5.1",
  "com.opencsv" % "opencsv" % "4.1",
  "com.databricks" %% "spark-csv" % "1.5.0",
  "com.github.tototoshi" %% "scala-csv" % "1.3.5",
  "org.elasticsearch" %% "elasticsearch-spark-20" % "6.2.4"
)

assemblyMergeStrategy in assembly := {
  case PathList("org","aopalliance", xs @ _*) => MergeStrategy.last
  case PathList("javax", "inject", xs @ _*) => MergeStrategy.last
  case PathList("javax", "servlet", xs @ _*) => MergeStrategy.last
  case PathList("javax", "activation", xs @ _*) => MergeStrategy.last
  case PathList("org", "apache", xs @ _*) => MergeStrategy.last
  case PathList("org", "slf4j", xs @ _*) => MergeStrategy.last
  case PathList("org", "neo4j", xs @ _*) => MergeStrategy.last
  case PathList("com", "google", xs @ _*) => MergeStrategy.last
  case PathList("com", "esotericsoftware", xs @ _*) => MergeStrategy.last
  case PathList("com", "codahale", xs @ _*) => MergeStrategy.last
  case PathList("com", "yammer", xs @ _*) => MergeStrategy.last
  case PathList("net", "jpountz", xs @ _*) => MergeStrategy.last
  case PathList("META-INF", xs @ _*) => MergeStrategy.discard
  case "about.html" => MergeStrategy.rename
  case "META-INF/ECLIPSEF.RSA" => MergeStrategy.last
  case "META-INF/mailcap" => MergeStrategy.last
  case "META-INF/mimetypes.default" => MergeStrategy.last
  case "plugin.properties" => MergeStrategy.last
  case "log4j.properties" => MergeStrategy.last
  case x =>
    val oldStrategy = (assemblyMergeStrategy in assembly).value
    oldStrategy(x)
}

【问题讨论】：

所以如果你改变 ENV MAIN_CLASS，你会构建整个 Docker？在 build.sbt 中，您将主类声明为 producer.KafkaCheckinsProducer。
How to get java main class from jar file的可能重复
但是如果我只运行 bash 脚本，我从 jar 运行我的类的方式就可以工作。当我从 Docker 运行它时，我得到了提到的错误。
@ThomasDecaux 我不同意 Docker 不必对这个问题做任何事情。没有 Dockerfile bash 脚本可以正常工作，但从 Dockerfile 启动它时就不行了。
@ThomasDecaux 我认为从 jar 问题中获取主类没有任何相似之处。

标签： scala apache-spark docker executable-jar

【解决方案1】：

检查jar的主类
在 Dockerfile 中，您在 构建时间 声明 MAIN_CLASS=consumer，我认为您希望此 env 在运行时“动态”，因此将其从 Dockerfile 中删除，或使用 build-arg 构建 2 个 Docker图片：消费者和生产者。

【讨论】：

不幸的是，它没有帮助。所有主要课程都可以。但其他一切都是一样的。即使使用 build-arg 问题仍然存在。我已经更新了 Dockerfile
如果您将"$MAIN_CLASS" 从 Dockerfile 移动到 /workdir/runDemo.sh 并使用良好的环境运行 Docker 映像。变量MAIN_CLASS，不起作用？