【问题标题】:Iterate each Pandas df row and identify if row value is in list, if so pull that value into df迭代每个 Pandas df 行并确定行值是否在列表中,如果是,则将该值拉入 df
【发布时间】:2021-10-06 07:17:46
【问题描述】:

我有一个 pandas df,其中包含世界各地的手动输入值。我有一个格式正确并包含正确语法的状态值列表。我想遍历 pandas df 中的每一行,并将每行的值与状态列表中的所有值进行比较,以确定该行中的值是否包含在任何字符串值中。如果是这样,将该值从字符串中拉到一个名为“match”的新 df 列中。如果熊猫行包含多个字符串值,则将两个值都带入并让它创建一个列表。下面是我的意思的一个例子。

注意:我已经可以使用 difflib get_close_matches 函数做到这一点。发布下面的代码并为此输出,想要一种方法来复制它,但对于熊猫中的 str.contains() 能力。

states_list = ['俄勒冈'、'德克萨斯'、'科罗拉多'、夏威夷、'索诺拉'、'阿拉斯加'、'阿拉巴马'、'阿克拉'等]

结果

我如何使用获取接近匹配项来选择与下面输入的状态值最接近的匹配项。想要添加另一列,其中包含状态列表中包含行值字符串的值

【问题讨论】:

    标签: python pandas dataframe contains difflib


    【解决方案1】:

    尝试以下方法:

    s = set([i.lower() for i in states_list])
    
    df['match'] = df['state_name'].apply(lambda x: list(set([i.strip().lower() for i in x.split(',')]).intersection(
    s)))
    
    df['match']=df['match'].apply(lambda x: [i[0].upper() + i[1:] for i in x])
    

    【讨论】:

    • 欢迎,乐于助人 :) 我又添加了一行,所以状态的第一个字母将是大写的
    猜你喜欢
    • 2019-05-02
    • 2022-01-12
    • 2021-03-03
    • 2023-01-09
    • 2021-05-25
    • 2021-04-27
    • 1970-01-01
    • 2018-03-11
    • 1970-01-01
    相关资源
    最近更新 更多