【发布时间】:2013-01-10 05:24:48
【问题描述】:
我正在尝试确定大型集合中的成对项目之间的相似性。这些项目有几个属性,我能够计算每个属性的离散相似度分数,介于 0 和 1 之间。我根据属性使用各种分类器:TF-IDF 余弦相似度、朴素贝叶斯分类器等。
在将所有这些信息编译成所有项目的最终相似度分数时,我陷入了困境。我不能只取一个未加权的平均值,因为 1)什么是高分取决于分类器和 2)某些分类器比其他分类器更重要。另外,有些分类器应该只考虑它们的高分,即高分表示较高的相似性,但低分没有意义。
到目前为止,我已经通过猜测计算了最终分数,但越来越多的分类器使这成为一个非常糟糕的解决方案。有什么技术可以确定一个最佳公式,它将获取我的各种分数并只返回一个?需要注意的是,系统确实会收到人工反馈,这也是一些分类器开始工作的方式。
最终我只对每个项目最相似的排名感兴趣。绝对分数本身没有意义,只有它们的顺序很重要。
【问题讨论】:
-
您可以添加另一个分类器,它将其他分类器的输出作为输入并返回单个值;)
-
我明白了,但如何做到这一点并不是很明显。您有示例或链接吗?
标签: machine-learning classification