【发布时间】:2020-07-01 10:26:30
【问题描述】:
我的数据如下:
Carepnter
Carpentor
Labourer
Labor
Labour
Housewife
House Wife
housewife.
我想清理数据并纠正拼写错误,但不是手动,因为它是一个庞大的数据。由于拼写错误,这些 50/60 的职业已经变成了 2000 年左右。
【问题讨论】:
标签: data-munging
我的数据如下:
Carepnter
Carpentor
Labourer
Labor
Labour
Housewife
House Wife
housewife.
我想清理数据并纠正拼写错误,但不是手动,因为它是一个庞大的数据。由于拼写错误,这些 50/60 的职业已经变成了 2000 年左右。
【问题讨论】:
标签: data-munging
您必须找到接近实际职业的字符串,例如木匠。 然后你可以尝试找到最接近它的 n-matches。
此处的另一个问题也涉及查找相似字符串 (Python: find closest string (from a list) to another string),您的答案中的解决方案可能是:
【讨论】: