【发布时间】:2015-07-30 21:36:00
【问题描述】:
我试图弄清楚是否有一种方法可以根据 difflib SequenceMatcher 比率在 Pandas 中对字符串进行模糊合并。基本上,我有两个如下所示的数据框:
df_a
company address merged
Apple PO Box 3435 1
df_b
company address
Apple Inc PO Box 343
我想像这样合并:
df_c = pd.merge(df_a, df_b, how = 'left', on = (difflib.SequenceMatcher(None, df_a['company'], df_b['company']).ratio() > .6) and (difflib.SequenceMatcher(None, df_a['address'], df_b['address']).ratio() > .6)
有一些帖子与我正在寻找的内容相近,但没有一个适合我想要做的事情。 有关如何使用 difflib 进行这种模糊合并的任何建议?
【问题讨论】:
标签: python merge fuzzy-search difflib