【问题标题】:pyspark joining more than 2 dataframespyspark 加入超过 2 个数据帧
【发布时间】:2017-01-17 10:27:44
【问题描述】:

假设我有 100 个数据框,我如何将它们组合成一个包含所有列的单个数据框。我的数据框看起来像,

id  name  marks
00  abc   70
01  def   67
02  ghi   68
03  jkl    90


id  name  class
00  abc A
01  def    B
02  ghi B
03  jkl    A


id  name  std
00  abc    1
01  def    2
02  ghi    3
03  jkl    4

id  name  city
00  abc    mex
01  def    nyc
02  ghi    ind
03  jkl    aus

所以我有超过 50 个数据框,所以最后一列每次都在变化。

所以我的问题是如何制作单个结果数据框,如下所示,

 id  name  marks  class  std  city
 00  abc    70      A     1    mex
 01  def     67     B     2    nyc
 02  ghi     68     B     3    la
 03  jkl     90     A     4    aus

【问题讨论】:

    标签: python apache-spark pyspark spark-dataframe


    【解决方案1】:

    您可以使用嵌套的 spark SQL 查询来加入其中的几个,但是加入其中的 50 个需要大量时间。

    【讨论】:

    猜你喜欢
    • 2021-05-16
    • 1970-01-01
    • 2021-07-13
    • 2022-01-26
    • 1970-01-01
    • 1970-01-01
    • 2014-05-15
    • 1970-01-01
    • 2020-03-27
    相关资源
    最近更新 更多