【发布时间】:2018-06-22 11:13:18
【问题描述】:
假设我有一个包含书名的图书数据库。对于来自 eBay 或 Craigslist 或其他类似网站的给定列表,我想将其标题字符串与我数据库中的所有书名进行比较,以尝试找到匹配项。
不太可能存在完全相等的字符串,因为这些网站上的用户喜欢在其列表标题中包含“完美状态”和“快速发货”等内容以吸引买家。
我应该使用什么算法来进行这种类型的关联?我知道 n-gram 和 Levenshtein 距离,但我不知道哪个会做最准确的工作。
对于各种适用的算法,它们的计算性能比较如何?使用多种算法并平均它们的结果以平衡它们的优势和劣势是否有意义?是否可以设置最低置信水平?我宁愿没有比赛也不愿质量很差的比赛。
【问题讨论】:
标签: string algorithm language-agnostic levenshtein-distance n-gram