【发布时间】:2020-08-11 06:48:53
【问题描述】:
我有两个笔记本。第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字。其他笔记本正在使用 spark 结构化流 (Python) 从该套接字读取推文并将其结果写入控制台。不幸的是,我没有在 jupyter 控制台上得到输出。代码在 pycharm 上运行良好。
spark = SparkSession \
.builder \
.appName("StructuredStreaming") \
.getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
# This is Spark Structured Streaming Code which is reading streams from twitter and showing them on console.
tweets = spark \
.readStream \
.format("socket") \
.option("host", "127.0.0.1") \
.option("port", 7000) \
.load()
query = tweets \
.writeStream \
.option("truncate", "false") \
.outputMode("append") \
.format("console") \
.start()
query.awaitTermination()
【问题讨论】:
-
你是从 twitter 还是 socket 读取数据?正如你的评论所说,阅读 twitter。
-
我正在从套接字读取数据。
-
一个笔记本正在从 twitter 读取推文并将它们写入套接字,而另一个笔记本正在使用结构化流从该套接字读取推文。
标签: apache-spark pyspark jupyter-notebook spark-streaming spark-structured-streaming