【问题标题】:Only one SparkContext may be running in this JVM - [SPARK]此 JVM 中只能运行一个 SparkContext - [SPARK]
【发布时间】:2017-10-08 23:01:54
【问题描述】:

我正在尝试运行以下代码来实时获取 twitter 信息:

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.twitter._
import org.apache.spark.streaming.StreamingContext._
import twitter4j.auth.Authorization
import twitter4j.Status
import twitter4j.auth.AuthorizationFactory
import twitter4j.conf.ConfigurationBuilder
import org.apache.spark.streaming.api.java.JavaStreamingContext

import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.SparkConf
import org.apache.spark.api.java.JavaSparkContext
import org.apache.spark.api.java.function.Function
import org.apache.spark.streaming.Duration
import org.apache.spark.streaming.api.java.JavaDStream
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream

val consumerKey = "xxx"
val consumerSecret = "xxx"
val accessToken = "xxx"
val accessTokenSecret = "xxx"
val url = "https://stream.twitter.com/1.1/statuses/filter.json"

val sparkConf = new SparkConf().setAppName("Twitter Streaming")
val sc = new SparkContext(sparkConf)

val documents: RDD[Seq[String]] = sc.textFile("").map(_.split(" ").toSeq)


// Twitter Streaming
val ssc = new JavaStreamingContext(sc,Seconds(2))

val conf = new ConfigurationBuilder()
conf.setOAuthAccessToken(accessToken)
conf.setOAuthAccessTokenSecret(accessTokenSecret)
conf.setOAuthConsumerKey(consumerKey)
conf.setOAuthConsumerSecret(consumerSecret)
conf.setStreamBaseURL(url)
conf.setSiteStreamBaseURL(url)

val filter = Array("Twitter", "Hadoop", "Big Data")

val auth = AuthorizationFactory.getInstance(conf.build())
val tweets : JavaReceiverInputDStream[twitter4j.Status] = TwitterUtils.createStream(ssc, auth, filter)

val statuses = tweets.dstream.map(status => status.getText)
statuses.print()
ssc.start()

但是当它到达这个命令时:val sc = new SparkContext(sparkConf),出现如下错误:

17/05/09 09:08:35 WARN SparkContext:多个正在运行的 SparkContexts 在同一个 JVM 中检测到! org.apache.spark.SparkException:只有一个 SparkContext 可能正在此 JVM 中运行(请参阅 SPARK-2243)。忽略 这个错误,设置 spark.driver.allowMultipleContexts = true。

我尝试在sparkConf值中添加以下参数,但仍然出现错误:

val sparkConf = new SparkConf().setAppName("Twitter Streaming").setMaster("local[4]").set("spark.driver.allowMultipleContexts", "true")

如果我忽略该错误并继续运行命令,我会收到另一个错误:

17/05/09 09:15:44 WARN ReceiverSupervisorImpl:重新启动接收器 延迟 2000 毫秒:接收推文时出错 401:身份验证 凭据 (https://dev.twitter.com/pages/auth) 丢失或 不正确。确保您已设置有效的消费者密钥/秘密,访问 令牌/秘密,并且系统时钟是同步的。 \n\n\n错误 401 未经授权 HTTP 错误:401

访问问题 '/1.1/statuses/filter.json'。原因:未经授权

感谢任何形式的贡献。问候,祝你有美好的一天。

【问题讨论】:

  • 为什么在 Scala 程序中使用 JavaStreamingContext?
  • 另外,您是如何部署代码的?这是在 Spark-shell 里面吗?
  • @RickMoritz 是的,在火花壳内。

标签: java apache-spark twitter stream jvm


【解决方案1】:

Spark-shell 已经准备好一个 spark-session 或 spark-context 供您使用 - 因此您不必/不能初始化一个新的。通常,在 spark-shell 启动过程结束时,您将有一条线告诉您在哪个变量下可用。 allowMultipleContexts 仅用于测试 Spark 的某些功能,在大多数情况下不应使用。

【讨论】:

  • 所以解决方案是省略以下命令:val sparkConf = new SparkConf().setAppName("Twitter Streaming") & val sc = new SparkContext(sparkConf)?。感谢您的澄清。
  • 是的 - 根据您的 Spark 版本,您可能还必须用 spark.sparkContext 替换 sc(如果 Spark >=2.0)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-02-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-05-18
  • 1970-01-01
  • 2018-03-31
相关资源
最近更新 更多