【问题标题】:fuzzy lookup between 2 series/df.columns2个系列/df.columns之间的模糊查找
【发布时间】:2018-08-30 08:57:45
【问题描述】:

基于此链接,我试图进行模糊查找:Apply fuzzy matching across a dataframe column and save results in a new column between 2 dfs:

import pandas as pd
df1 = pd.DataFrame(data={'Brand_var':['Johnny Walker','Guiness','Smirnoff','Vat 69','Tanqueray']})
df2 = pd.DataFrame(data={'Product':['J.Walker Blue Label 12 CC','J.Morgan Blue Walker','Giness blue 150 CC','tqry qiuyur qtre','v69 g nesscom ui123']})

我有 2 个 dfs df1 和 df2 需要通过模糊查找/任何其他适合的方法进行映射。

下面是我正在使用的代码:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process
compare = pd.MultiIndex.from_product([df1['Brand_var'],
                                      df2['Product']]).to_series()
def metrics(tup):
    return pd.Series([fuzz.ratio(*tup),
                      fuzz.token_sort_ratio(*tup)],
                     ['ratio', 'token'])
compare.apply(metrics)
df = compare.apply(metrics).unstack().idxmax().unstack(0)
print(df)

以下是我的输出:

                             ratio       token
----------------------------------------------------------
Giness blue 150 CC         Guiness      Guiness
J.Morgan Blue Walker       Johnny Walker Johnny Walker 
J.Walker Blue Label 12 CC  Johnny Walker Johnny Walker 
tqry qiuyur qtre           Tanqueray     Tanqueray
v69 g nesscom ui123        Guiness       Guiness

预期输出:

                             ratio       token
----------------------------------------------------------
Giness blue 150 CC          Guiness       Guiness
J.Morgan Blue Walker        None          None
J.Walker Blue Label 12 CC   Johnny Walker Johnny Walker 
tqry qiuyur qtre            Tanqueray     Tanqueray
v69 g nesscom ui123         Vat 69        Vat 69

任何建议可能是更好的方法(不使用模糊 wuzzy 也可以)来获得我想要的输出?

提前谢谢你。 :)

【问题讨论】:

  • 那么问题是为什么fuzzywuzzy 不能正常工作?
  • @jezrael :不,我想知道是否有更好的方法通过fuzzywuzzy 或pandas 来获得所需的输出..? :)
  • hmm,pandas 没有实现类似的方法,可能需要不同的库,如 fuzzywuzzy。我没有这方面的经验,但我希望得到一些答案。但是你也可以解释一下为什么会有Nones ?因为fuzzywuzzy 总是返回一些值,所以永远不要得到它(但也许我错了)。
  • 很遗憾我没有这方面的经验,所以没有答案也没有给你解决方案:(
  • 如果产品包含诸如“Giness”或“Gines”或“Guiness”之类的词,那么brand_var 就是“Guiness”。第二条规则:如果产品包含“69”,则品牌为“Vat 69”,依此类推。您必须根据您的数据构建它们

标签: python-3.x pandas fuzzywuzzy


【解决方案1】:

以下带有规则的代码将为您提供预期的输出:

import pandas as pd
from fuzzywuzzy import fuzz
df1 = pd.DataFrame(data={'Brand_var':['Johnny Walker','Guiness','Smirnoff','Vat 69','Tanqueray']})
df2 = pd.DataFrame(data={'Product':['J.Walker Blue Label 12 CC','J.Morgan Blue Walker','Giness blue 150 CC','tqry qiuyur qtre','v69 g nesscom ui123']})

Guiness_Beer = ["Giness","Guiness","Gines"]
Johnny_Walker = ["J.Walker","J.walker"]
Tanqueray     =["tqry","Tanqueray","tquery"]
Vat = ["69","Vat69","Vat 69"]

matched_names = []

for row in df1.index:
    brand_name = df2.get_value(row,"Product")
    Rule_Guiness = any(word in brand_name for word in Guiness_Beer)
    Rule_Johnny_Walker = any(word in brand_name for word in Johnny_Walker)
    Rule_Tanqueray = any(word in brand_name for word in Tanqueray)
    Rule_Vat = any(word in brand_name for word in Vat)
    if Rule_Guiness:
        matched_names.append([brand_name,"Guiness"])
    elif Rule_Johnny_Walker:
        matched_names.append([brand_name,"Johnny Walker"])
    elif Rule_Tanqueray:
        matched_names.append([brand_name,"Tanqueray"])
    elif Rule_Vat:
        matched_names.append([brand_name,"Vat 69"])
    else:
        matched_names.append([brand_name,"None"])


df = pd.DataFrame(columns=['Product', 'Brand'], data=matched_names)

您可以在此进行更多修改,例如 Guiness_beer 等所有字典都可以通过 excel 进行配置,并且您将来不必触摸代码您想添加/减去/修改任何关键字。

【讨论】:

  • 谢谢,但是如果我不想硬编码任何特定品牌怎么办?我的意思是我不能附加所有的名字,因为它们有 1000 个
  • 这基本上取决于你的规则!!想要将它们聚类怎么办?您还可以制作品牌集群,存储它们并作为您传递的产品传递它们!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-06-29
  • 2023-02-04
  • 1970-01-01
相关资源
最近更新 更多