【发布时间】:2020-03-26 12:50:10
【问题描述】:
我正在使用一个 RDD,它有几行以 # 开头。 我想删除所有以 # 开头的行并保留其余行。 我试过 remove = records.filter(lambda x: x[0].startswith('#')) 但这样它只过滤包含#的行。我想要相反的。
【问题讨论】:
我正在使用一个 RDD,它有几行以 # 开头。 我想删除所有以 # 开头的行并保留其余行。 我试过 remove = records.filter(lambda x: x[0].startswith('#')) 但这样它只过滤包含#的行。我想要相反的。
【问题讨论】:
尝试反转你的条件:
records.filter(lambda x: not x[0].startswith('#'))
【讨论】:
data1_filt,通过 PySpark Databricks)foo = data1_filt.filter(lambda word: not word.startswith('a'))
flatmap 的输出 rdd