【发布时间】:2011-03-30 03:34:34
【问题描述】:
我在各种文件中有 20,000 个公司地址,它们的格式都不同。例如:
A 公司 12345街 美国
CompanyA, Inc box2, 12345 街 美国华盛顿州
B公司有限公司 英国快乐街 123 号
公司 B 有限公司 123,快乐街,伦敦,S1 1AA
我希望能够合并每家公司的记录(即将上述分为 2 个类别,每个公司一个)。
我不知道该怎么做。我假设任何聚类本质上都是概率性的,并且可能对更容易的匹配很有效,但随后需要手动审查不太可能/更不确定的匹配。
谁能说出适合此类任务的任何技术?
非常感谢!
【问题讨论】:
-
如果您知道它们是针对某些地址的,您就不能查找某些关键字并假设它们属于哪个集群吗?这种方式的集群将与地址所在的国家/地区有关,因此只创建两个集群。当然,如果您想要更细粒度的集群,这种方法可能行不通。
标签: cluster-analysis text-processing