【发布时间】:2020-01-05 16:54:39
【问题描述】:
我正在通过 Spark Structured Streaming 并遇到问题。
在StreamingContext,DStreams中,我们可以定义一个batch interval如下:
from pyspark.streaming import StreamingContext
ssc = StreamingContext(sc, 5) # 5 second batch interval
如何在结构化流中做到这一点?
我的流媒体是这样的:
sparkStreaming = SparkSession \
.builder \
.appName("StreamExample1") \
.getOrCreate()
stream_df = sparkStreaming.readStream.schema("col0 STRING, col1 INTEGER").option("maxFilesPerTrigger", 1).\
csv("C:/sparkStream")
sql1 = stream_df.groupBy("col0").sum("col1")
query = sql1.writeStream.queryName("stream1").outputMode("complete").format("memory").start()
此代码按预期工作,但是如何/在哪里定义批处理间隔?
我是结构化流媒体的新手,请指导我。
【问题讨论】:
标签: apache-spark pyspark spark-structured-streaming