【发布时间】:2016-06-20 19:45:19
【问题描述】:
我正在构建的数据库有大量名称,这些名称经常重复。但是,许多名称都有拼写错误,我想尝试自动更正拼写错误。我事先不知道正确的姓名列表。
我目前的方法是在语料库中保留最热门的N 名称及其频率列表。然后,当将新名称输入数据库时,我找到最大化term_freq(name) / edit_distance(new_name, name) 的名称。也就是说,我在顶部N 名称中找到了一个现有名称,该名称具有最高频率除以候选名称和候选名称之间的编辑距离。
这是检查名称的合理方法吗?我是不是搞错了?
我担心如果系统检测到一组文档拼错了一个名称,它们会使其进入顶部的N 名称,然后导致所有其他名称也发生变化。
【问题讨论】:
标签: algorithm nlp spell-checking