【发布时间】:2012-08-10 20:11:40
【问题描述】:
我正在尝试将一个营业地点名称和地址与另一个可能重复的营业地点名称和地址进行比较。问题是,姓名和地址通常是人工输入的,因此显然存在各种差异。
这里有一些例子:
圣。 vs. 街 vs. 街
圣。 14 vs. Ste 14 vs. Suite 14 vs. #14
NE 39th Ave. vs. 39th Ave. vs. 39th Avenue vs. NE 39th Avenue
还有更多是可能的......
我想在我的程序中编写一个正则表达式(使用 python)来比较将捕获这些细微差异的名称和地址。实际上,我经常看到看起来完全一样的地址,但对于少数不一样的地址,我不希望正则表达式完全拒绝它并说它们不一样。
地名有时也是如此。 (真实的)例子:
“埃尔多拉多”与“埃尔多拉多墨西哥餐厅”
“东亚特兰大咖啡店”与“乔的东亚特兰大咖啡店”
“乡村餐厅”与“爸爸村”
“DJR 清洁企业”与“DJR 清洁企业公司”
如果您对如何执行此操作或代码想法有任何建议,我将不胜感激,因为我现在只知道如何做简单的正则表达式。我以前从来没有遇到过这么大的问题...
谢谢。
【问题讨论】:
标签: regex