【发布时间】:2023-03-20 22:25:02
【问题描述】:
我正在编写一个应用程序,允许用户将引号添加到数据库中,可以通过 Lucene 进行搜索。是使用 TF-IDF 和余弦相似度来确定引用是否与另一个引用非常相似,还是使用 Damerau-Levenshtein 距离更好?
例如
两条路在树林中分道扬镳,我选择了少有人走的那条,这一切都不同了。
对
树林中有两条路分叉,我选择了少有人走的那条,结果完全不同。
【问题讨论】:
标签: java lucene text-classification document-classification