Spark 结构化流批处理答案

【问题标题】：Spark Structured Streaming BatchSpark 结构化流批处理
【发布时间】：2017-05-24 04:10:22
【问题描述】：

我在 Spark 的结构化编程中运行批处理。下面的 sn-p 代码抛出错误，提示“kafka 不是有效的 Spark SQL 数据源；”。我使用的版本是--> spark-sql-kafka-0-10_2.10。感谢您的帮助。谢谢。

Dataset<Row> df = spark
    .read()         
    .format("kafka")
    .option("kafka.bootstrap.servers", "*****")
    .option("subscribePattern", "test.*")
    .option("startingOffsets", "earliest")
    .option("endingOffsets", "latest")
    .load();

Exception in thread "main" org.apache.spark.sql.AnalysisException: kafka is not a valid Spark SQL Data Source.;

【问题讨论】：

尝试使用sql-kafka-0-10_2.11，而不是spark-sql-kafka-0-10_2.10。
您使用什么 Spark 版本？你如何执行上面的代码？在spark-shell 中还是作为 Spark 应用程序的一部分？如何执行 Spark 应用程序？
Jacek，我用的是 Spark 2.1.0 版本。我暂时不使用 spark-shell。我只是从 eclipse 运行主类。

标签： apache-spark spark-structured-streaming

【解决方案1】：

我遇到了同样的问题，你和我一样使用 read 而不是 readStream。

将 spark.read() 更改为 spark.readStream 对我来说效果很好。

【讨论】：

【解决方案2】：

使用spark-submit 机制并传递-jars spark-sql-kafka-0-10_2.11-2.1.1.jar

根据自己的情况调整那个库中kafka、scala和spark的版本。

【讨论】：