【发布时间】:2021-06-19 17:35:39
【问题描述】:
我有以下 Stream 数据框
+------------------------------------+
|______sentence______________________|
| Representative is a scientist |
| Norman did a good job in the exam |
| you want to go on shopping? |
--------------------------------------
我有如下列表
val myList
作为最终输出,我需要 myList 在流数据帧中包含以上三个句子
输出
myList = [Representative is a scientist, Norman did a good job in the exam, you want to go on shopping? ]
我尝试了以下给出流错误的方法
val myList = sentenceDataframe.select("sentence").rdd.map(r => r(0)).collect.toList
上述方法抛出的错误
org.apache.spark.sql.AnalysisException:带有流式源的查询 必须用 writeStream.start() 执行
请注意,上述方法适用于普通数据帧,但不适用于流数据帧。
有没有办法遍历流数据帧的每一行并使用 scala 和 spark 将行值分配到公共列表中?
【问题讨论】:
标签: list scala dataframe apache-spark stream