【问题标题】:Pandas fast fuzzy matchPandas 快速模糊匹配
【发布时间】:2021-11-09 04:40:26
【问题描述】:

我有两个格式如下的数据框:

d = {'id2': ['1', '2'], 'name': ['paris city', 'london town']}
    df1 = pd.DataFrame(data=d)
   
print(df1)
     id2   name 
0     1  paris city              
1     1  london town   


d = {'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']}
    df2 = pd.DataFrame(data=d)
   
print(df2)
     id2   name 
0     3  parid cit              
1     4  londoon town     

我希望根据名称列进行模糊字符串合并。最终结果如下:

     id2  id2    name_x          name_y      match_level
0     3    1   parid cit       paris city         0.91
1     4    2   londoon town    london town        0.93

我曾尝试使用模糊 wuzzy 库,但由于 我要合并的两个表都有 100k+ 行,因此代码需要几天才能运行。

我还看到了一些“快速”实现,例如快速模糊或其他使用 tfidf 或 k 最近邻居的实现:但是,所有代码示例都显示了如何根据列表查找单个字符串的匹配项,我还没有能够找到在两个数据帧之间进行模糊合并的任何其他库/实现。

什么是模糊合并 pandas 数据帧的快速有效方法?

【问题讨论】:

    标签: python pandas merge fuzzy-search rapidfuzz


    【解决方案1】:
    import fuzzymatcher
    import pandas as pd
    
    df_left =  pd.DataFrame({'id2': ['1', '2'], 'name': ['paris city', 'london town']})
    
    df_right =  pd.DataFrame({'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']})
    
    fuzzymatcher.fuzzy_left_join(df_left, df_right, left_on = "name", right_on = "name")
    

    这是地址:https://github.com/RobinL/fuzzymatcher

    【讨论】:

    • 您是否有任何性能基准来说明匹配大型数据集需要多长时间?
    猜你喜欢
    • 2021-10-17
    • 1970-01-01
    • 2015-06-22
    • 1970-01-01
    • 1970-01-01
    • 2011-01-07
    • 1970-01-01
    • 1970-01-01
    • 2019-03-08
    相关资源
    最近更新 更多