【问题标题】:Techniques for probabilistic clustering of similar looking text data?相似外观文本数据的概率聚类技术?
【发布时间】:2011-03-30 03:34:34
【问题描述】:

我在各种文件中有 20,000 个公司地址,它们的格式都不同。例如:

  • A 公司 12345街 美国

  • CompanyA, Inc box2, 12345 街 美国华盛顿州

  • B公司有限公司 英国快乐街 123 号

  • 公司 B 有限公司 123,快乐街,伦敦,S1 1AA

我希望能够合并每家公司的记录(即将上述分为 2 个类别,每个公司一个)。

我不知道该怎么做。我假设任何聚类本质上都是概率性的,并且可能对更容易的匹配很有效,但随后需要手动审查不太可能/更不确定的匹配。

谁能说出适合此类任务的任何技术?

非常感谢!

【问题讨论】:

  • 如果您知道它们是针对某些地址的,您就不能查找某些关键字并假设它们属于哪个集群吗?这种方式的集群将与地址所在的国家/地区有关,因此只创建两个集群。当然,如果您想要更细粒度的集群,这种方法可能行不通。

标签: cluster-analysis text-processing


【解决方案1】:

也许automatic grammar induction 是一种可以在这里产生结果的技术。您可以尝试为您的文本推断语法,然后使用某种比较指标对推断的语法进行聚类。

【讨论】:

    猜你喜欢
    • 2017-07-27
    • 2010-11-04
    • 2017-07-05
    • 2023-03-19
    • 2016-09-06
    • 2021-06-22
    • 2020-10-30
    • 2020-10-10
    • 1970-01-01
    相关资源
    最近更新 更多