【问题标题】:Remove elements from RDD starting with certain character从 RDD 中删除以特定字符开头的元素
【发布时间】:2020-03-26 12:50:10
【问题描述】:

我正在使用一个 RDD,它有几行以 # 开头。 我想删除所有以 # 开头的行并保留其余行。 我试过 remove = records.filter(lambda x: x[0].startswith('#')) 但这样它只过滤包含#的行。我想要相反的。

【问题讨论】:

    标签: python pyspark rdd


    【解决方案1】:

    尝试反转你的条件:

    records.filter(lambda x: not x[0].startswith('#'))
    

    【讨论】:

    • 很好的答案。我将这个想法应用于我的 rdd(即data1_filt,通过 PySpark Databricks)foo = data1_filt.filter(lambda word: not word.startswith('a'))
    • 请注意,rdd 是来自flatmap 的输出 rdd
    猜你喜欢
    • 2015-03-02
    • 1970-01-01
    • 2018-12-22
    • 2022-11-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多