【发布时间】:2020-08-13 05:15:37
【问题描述】:
这是我的代码。需要 17 小时才能完成。您能否建议任何替代代码以减少计算时间?
# test algorithm1 - fuzzy
matched_pair = []
for x in dataset1['full_name_eng']:
for y in dataset2['name']:
if (fuzz.token_sort_ratio(x,y) > 85):
matched_pair.append((x,y))
print((x,y))
我尝试了不同的但没有工作((。
dataset1 - 10krows, dataset2 - 1M 行, fuzz.token_sort_ratio(x,y) - 是一个接受 2 个参数(2 个字符串)并输出整数的函数 - 这 2 个字符串的相似度
【问题讨论】:
-
你能提供更多细节吗?什么是数据集1?那有多大?你可以发布样本数据吗?什么是绒毛?
-
拆分列表并并行处理
-
请看我编辑过的问题 - 添加了一些细节
-
您可以查看局部敏感散列 (LSH) 以实现更快的相似字符串搜索。 Here is an article explaining it