【问题标题】:Spark Structured Streaming BatchSpark 结构化流批处理
【发布时间】:2017-05-24 04:10:22
【问题描述】:

我在 Spark 的结构化编程中运行批处理。下面的 sn-p 代码抛出错误,提示“kafka 不是有效的 Spark SQL 数据源;”。我使用的版本是--> spark-sql-kafka-0-10_2.10。感谢您的帮助。谢谢。

Dataset<Row> df = spark
    .read()         
    .format("kafka")
    .option("kafka.bootstrap.servers", "*****")
    .option("subscribePattern", "test.*")
    .option("startingOffsets", "earliest")
    .option("endingOffsets", "latest")
    .load();
Exception in thread "main" org.apache.spark.sql.AnalysisException: kafka is not a valid Spark SQL Data Source.;

【问题讨论】:

  • 尝试使用sql-kafka-0-10_2.11,而不是spark-sql-kafka-0-10_2.10
  • 您使用什么 Spark 版本?你如何执行上面的代码?在spark-shell 中还是作为 Spark 应用程序的一部分?如何执行 Spark 应用程序?
  • Jacek,我用的是 Spark 2.1.0 版本。我暂时不使用 spark-shell。我只是从 eclipse 运行主类。

标签: apache-spark spark-structured-streaming


【解决方案1】:

我遇到了同样的问题,你和我一样使用 read 而不是 readStream。

spark.read() 更改为 spark.readStream 对我来说效果很好。

【讨论】:

    【解决方案2】:

    使用spark-submit 机制并传递-jars spark-sql-kafka-0-10_2.11-2.1.1.jar

    根据自己的情况调整那个库中kafka、scala和spark的版本。

    【讨论】:

      猜你喜欢
      • 2021-12-20
      • 2019-01-14
      • 2019-08-24
      • 1970-01-01
      • 1970-01-01
      • 2020-09-06
      • 2019-07-21
      • 2018-04-07
      • 1970-01-01
      相关资源
      最近更新 更多