从 RDD 中删除以特定字符开头的元素

【问题标题】：Remove elements from RDD starting with certain character从 RDD 中删除以特定字符开头的元素
【发布时间】：2020-03-26 12:50:10
【问题描述】：

我正在使用一个 RDD，它有几行以 # 开头。我想删除所有以 # 开头的行并保留其余行。我试过 remove = records.filter(lambda x: x[0].startswith('#')) 但这样它只过滤包含#的行。我想要相反的。

【问题讨论】：

【解决方案1】：

尝试反转你的条件：

records.filter(lambda x: not x[0].startswith('#'))

【讨论】：

很好的答案。我将这个想法应用于我的 rdd（即data1_filt，通过 PySpark Databricks）foo = data1_filt.filter(lambda word: not word.startswith('a'))
请注意，rdd 是来自flatmap 的输出 rdd