【发布时间】:2017-04-19 14:00:37
【问题描述】:
我有一个超过 20 列的“大”数据集 (huge_df)。其中一列是id 字段(使用pyspark.sql.functions.monotonically_increasing_id() 生成)。
使用某些标准,我生成了第二个数据框 (filter_df),其中包含我想稍后从 huge_df 过滤的 id 值。
目前我正在使用 SQL 语法来执行此操作:
filter_df.createOrReplaceTempView('filter_view')
huge_df = huge_df.where('id NOT IN (SELECT id FROM filter_view)')
问题 1:
有没有办法只使用 Python 来做到这一点,即无需注册 TempView?
问题 2: 有没有完全不同的方法来完成同样的事情?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql pyspark-sql