相似外观文本数据的概率聚类技术？答案

【问题标题】：Techniques for probabilistic clustering of similar looking text data?相似外观文本数据的概率聚类技术？
【发布时间】：2011-03-30 03:34:34
【问题描述】：

我在各种文件中有 20,000 个公司地址，它们的格式都不同。例如：

我希望能够合并每家公司的记录（即将上述分为 2 个类别，每个公司一个）。

我不知道该怎么做。我假设任何聚类本质上都是概率性的，并且可能对更容易的匹配很有效，但随后需要手动审查不太可能/更不确定的匹配。

谁能说出适合此类任务的任何技术？

非常感谢！

【问题讨论】：

如果您知道它们是针对某些地址的，您就不能查找某些关键字并假设它们属于哪个集群吗？这种方式的集群将与地址所在的国家/地区有关，因此只创建两个集群。当然，如果您想要更细粒度的集群，这种方法可能行不通。

【解决方案1】：

也许automatic grammar induction 是一种可以在这里产生结果的技术。您可以尝试为您的文本推断语法，然后使用某种比较指标对推断的语法进行聚类。

【讨论】：