【发布时间】:2019-12-10 18:59:44
【问题描述】:
我想创建一个数据集,它是许多选择查询的堆叠数据集,其中一个参数在我的 where 子句中更改。我可以通过调用选择查询 n 次并相应地更改我的 where 原因来使用 python 来做到这一点。这是我可以在 SQL 中一次性完成的事情,而无需进行 n 个单独的选择查询吗?
例如
dfs = []
for name in names:
dfs.append(spark.select("select * from personal_data where Name = 'f{name}'"))
# Some logic to take the list of dataframes and make one stacked dataframe
是否可以通过一个选择查询而不是连续查询来实现这一点?
目前采用上述方法的原因是因为表中的行没有组合在一起,例如,当我输入第一个名称的 where 子句时,我得到第 1、6、10 行。下一个名称将返回行2、3、7。
生成的数据集应保留此顺序,即
第 1、6、10、2、3、7 行。这至少是我进行许多选择查询然后将结果数据帧堆叠在一起的原因。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql pyspark-sql