【问题标题】:How to drop rows from pandas data frame that contains a particular string in a particular column? [duplicate]如何从包含特定列中特定字符串的熊猫数据框中删除行? [复制]
【发布时间】:2015-04-25 03:20:51
【问题描述】:

我在 python 中有一个非常大的数据框,我想删除在特定列中具有特定字符串的所有行。

例如,我想在数据框的 C 列中删除所有具有字符串“XYZ”作为子字符串的行。

这可以使用 .drop() 方法以有效的方式实现吗?

【问题讨论】:

    标签: python pandas


    【解决方案1】:

    pandas 有向量化的字符串操作,所以你可以过滤掉包含你不想要的字符串的行:

    In [91]: df = pd.DataFrame(dict(A=[5,3,5,6], C=["foo","bar","fooXYZbar", "bat"]))
    
    In [92]: df
    Out[92]:
       A          C
    0  5        foo
    1  3        bar
    2  5  fooXYZbar
    3  6        bat
    
    In [93]: df[~df.C.str.contains("XYZ")]
    Out[93]:
       A    C
    0  5  foo
    1  3  bar
    3  6  bat
    

    【讨论】:

    • 虽然您写的内容正确且更具可读性,但更短的方法是:df[~df.C.str.contains("XYZ")]
    • 当我这样做时,它工作得很好,但是它也没有显示任何值为 NaN 的行。有没有办法让那些回来,以便生成的数据框包含不包含所需字符串和 NaN 的行?
    • 如果您想查看它是否包含可能包含 1000 种不同事物的大型列表中的任何内容,而不是“XYZ”,您将如何执行此操作。
    • 我收到一个错误:TypeError: bad operand type for unary ~: 'float',关于这个问题有什么想法吗?
    • 添加na=False解决的问题
    【解决方案2】:

    如果您的字符串约束不只是一个字符串,您可以删除相应的行:

    df = df[~df['your column'].isin(['list of strings'])]
    

    以上内容将删除包含列表元素的所有行

    【讨论】:

    • 你会如何做相反的事情?我想检查列值是否包含任何字符串。伪:for string in list_of_strings, check if column contains it
    • 去掉"~" df = df[df['your column'].isin(['list of strings'])]
    • 如果我们不知道列怎么办?
    • 如何从多列而不是一列中删除?
    • 这对我有用,但我意识到“字符串列表”应该是您要删除的确切字符串
    【解决方案3】:

    这仅在您想比较确切的字符串时才有效。 如果您想检查列字符串是否包含列表中的任何字符串,它将不起作用。

    与列表进行比较的正确方法是:

    searchfor = ['john', 'doe']
    df = df[~df.col.str.contains('|'.join(searchfor))]
    

    【讨论】:

      【解决方案4】:

      对代码稍作修改。 na=False 将跳过空值。否则你会得到一个错误TypeError: bad operand type for unary ~: float

      df[~df.C.str.contains("XYZ", na=False)]
      

      来源:TypeError: bad operand type for unary ~: float

      【讨论】:

        【解决方案5】:

        【讨论】:

          【解决方案6】:

          以下代码将为您提供所有行的列表:-

          df[df['C'] != 'XYZ']
          

          将上述代码中的值存储到数据框中:-

          newdf = df[df['C'] != 'XYZ']
          

          【讨论】:

          • 这种语法更容易记住。谢谢
          【解决方案7】:

          如果您不想删除所有 NaN,请使用

          df[~df.C.str.contains("XYZ") == True]
          

          【讨论】:

            猜你喜欢
            • 2022-11-27
            • 2021-11-28
            • 2017-09-27
            • 2021-03-17
            • 1970-01-01
            • 1970-01-01
            • 2023-03-16
            • 2020-01-04
            • 2018-02-25
            相关资源
            最近更新 更多