【发布时间】:2018-12-05 11:14:48
【问题描述】:
假设我有一个这样的 DataFrame。
[Row(case_number='5307793179', word_list=['n', 'b', 'c']),
Row(case_number='5307793171', word_list=['w', 'e', 'c']),
Row(case_number='5307793172', word_list=['1', 'f', 'c']),
Row(case_number='5307793173', word_list=['a', 'k', 'c']),
Row(case_number='5307793174', word_list=['z', 'l', 'c']),
Row(case_number='5307793175', word_list=['b', 'r', 'c'])]
还有一个像这样的主词表:
master_word_list = ['b', 'c']
是否有一种简洁的方法可以根据 master_word_list 过滤 word_list,因此生成的 pyspark 数据框看起来像这样。 (我的意思是不使用 UDF,如果 UDF 是最好/唯一的方法,我也会接受它作为一种解决方案)
[Row(case_number='5307793179', word_list=['b', 'c']),
Row(case_number='5307793171', word_list=['c']),
Row(case_number='5307793172', word_list=['c']),
Row(case_number='5307793173', word_list=['c']),
Row(case_number='5307793174', word_list=['c']),
Row(case_number='5307793175', word_list=['b', 'c'])]
【问题讨论】:
标签: python apache-spark pyspark user-defined-functions