【发布时间】:2019-03-09 01:23:45
【问题描述】:
我有一个 Excel 文件,其中一列包含 1000 多个公司名称,另一列包含大约 20,000 个公司名称。
目标是匹配尽可能多的名称。问题是第一列 (1000+) 中的名称格式不正确,这意味着“公司名称”字符串可能类似于 "9Com(panynAm9e00"。我'我试图找出解决这个问题的最佳方法。(只有 12 个名称完全匹配)
在尝试了不同的方法后,我最终尝试使用正则表达式匹配每个名称中的 4-5 个或更多字符,具体取决于每个字符串的长度。但我只是在努力寻找最有效的方法来做到这一点。
例如:
第 1 列
1. 9Com(panynAm9e00
2. NikE4
3. Mitrosof2
第 2 列
1. Microsoft
2. Company Name
3. Nike
在 Column 1 中获取第一个元素并在 Column 2 中查找匹配项。如果没有完全匹配,则查找具有 4-5 个相同字符的字符串。
有什么建议吗?
【问题讨论】:
标签: python pandas fuzzywuzzy