【发布时间】:2021-01-01 02:17:12
【问题描述】:
我正在尝试将大约 50.000 个实例的 2 列与 Fuzzywuzzy 进行匹配。 A 列(公司)包含公司名称,有一些拼写错误。 B 列(正确)包含正确的公司名称。
我正在尝试将错字与正确的匹配。在下面运行我的脚本时,内核会持续执行几个小时并且不提供结果。
关于如何改进的任何想法?
非常感谢!
更新文件链接:https://fromsmash.com/STLz.VEub2-ct
import pandas as pd
from fuzzywuzzy import process, fuzz
import matplotlib.pyplot as plt
correct = pd.read_excel("correct.xlsx")
companies = pd.read_excel("companies2.xlsx")
actual_comp = []
similarity = []
for i in companies.Customers:
ratio = process.extract(i, correct.Correct, limit=1)
actual_comp.append(ratio[0][0])
similarity.append(ratio[0][1])
companies['actual_company'] = pd.Series(actual_comp)
companies['similarity'] = pd.Series(similarity)
companies.head(10)
【问题讨论】:
标签: python-3.x string-matching fuzzywuzzy