【问题标题】:Pyspark: Select all columns except particular columnsPyspark:选择除特定列之外的所有列
【发布时间】:2018-11-23 02:13:43
【问题描述】:

我在 PySpark 数据框中有大量列,例如 200 列。我想选择除 3-4 列之外的所有列。如何选择这些列而无需手动输入我要选择的所有列的名称?

【问题讨论】:

标签: python sql dataframe pyspark


【解决方案1】:

最后,我解决了以下问题:

  • Drop

    df.drop('column_1', 'column_2', 'column_3')

  • Select

    df.select([c for c in df.columns if c not in {'column_1', 'column_2', 'column_3'}])

【讨论】:

    【解决方案2】:
    df.drop(*[cols for cols in [list of columns to drop]])
    

    如果要删除列的列表很大,这很有用。或者该列表是否可以通过编程方式派生。

    【讨论】:

      猜你喜欢
      • 2017-09-24
      • 2013-04-20
      • 2013-03-23
      • 1970-01-01
      • 2020-04-04
      • 1970-01-01
      • 2018-12-16
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多