【发布时间】:2020-11-05 21:35:46
【问题描述】:
我尝试在 Scala 上制作 Apache Spark 作业。我是 Scala 的新手,并且更早地使用 Pyspark。 作业开始时出现错误。 代码:
object SparkRMSP_full {
import org.apache.spark.sql.SparkSession
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder
.appName("parse_full_rmsp_job")
.getOrCreate()
val raw_data_df = spark.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "10.1.24.111:9092")
.option("subscribe", "dev.etl.fns.rmsp.raw-data")
.load()
println(raw_data_df.isStreaming)
raw_data_df.printSchema
}
}
火花提交命令:
spark-submit --packages org.apache.spark:spark-streaming-kafka-0-10-assembly_2.11:2.1.0 --master local --num-executors 2 --executor-memory 2g --driver-memory 1g --executor-cores 2 "C:\tools\jar\streaming_spark.jar"
我有错误:
20/07/15 15:05:32 WARN SparkSubmit$$anon$2: Failed to load SparkRMSP_full.
java.lang.ClassNotFoundException: SparkRMSP_full
我必须如何正确声明类?
UPD:
build.sbt:
name := "streaming_spark"
version := "0.1"
scalaVersion := "2.11.12"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.3.1"
libraryDependencies += "org.apache.spark" %% "spark-streaming-kafka-0-10-assembly" % "2.3.1"
pastebin上的项目结构
【问题讨论】:
-
你是怎么创建jar文件的,maven或者sbt可以分享吗?同时添加
--class SparkRMSP_full -
我正在 IDEA 中使用 sbt 构建 jar 文件。我将
--class添加到 spark-submit 中,但同样的错误 -
可以添加sbt内容和文件夹结构吗?
-
已完成。 Pasterbin 目录
-
可以粘贴
SparkRMSP_full对象的路径吗?
标签: scala apache-spark