【问题标题】:Calculating a score from multiple classifiers从多个分类器计算分数
【发布时间】:2013-01-10 05:24:48
【问题描述】:

我正在尝试确定大型集合中的成对项目之间的相似性。这些项目有几个属性,我能够计算每个属性的离散相似度分数,介于 0 和 1 之间。我根据属性使用各种分类器:TF-IDF 余弦相似度、朴素贝叶斯分类器等。

在将所有这些信息编译成所有项目的最终相似度分数时,我陷入了困境。我不能只取一个未加权的平均值,因为 1)什么是高分取决于分类器和 2)某些分类器比其他分类器更重要。另外,有些分类器应该只考虑它们的高分,即高分表示较高的相似性,但低分没有意义。

到目前为止,我已经通过猜测计算了最终分数,但越来越多的分类器使这成为一个非常糟糕的解决方案。有什么技术可以确定一个最佳公式,它将获取我的各种分数并只返回一个?需要注意的是,系统确实会收到人工反馈,这也是一些分类器开始工作的方式。

最终我只对每个项目最相似的排名感兴趣。绝对分数本身没有意义,只有它们的顺序很重要。

【问题讨论】:

  • 您可以添加另一个分类器,它将其他分类器的输出作为输入并返回单个值;)
  • 我明白了,但如何做到这一点并不是很明显。您有示例或链接吗?

标签: machine-learning classification


【解决方案1】:

有一本关于集成分类器主题的好书。上线时间:Combining Pattern Classifiers

本书有两章(第 4 章和第 5 章)关于标签输出的融合以及如何获得单个决策值。

本章定义了一组方法,包括:

1- 加权多数投票

2- 朴素贝叶斯组合

3- ...

我希望这就是你要找的。​​p>

【讨论】:

    【解决方案2】:

    获取一本关于集成分类的书。关于如何学习分类器的良好组合已经有很多工作。有很多选择。您当然可以学习权重并进行加权平均。或者您可以使用纠错码。等等。

    无论如何,请阅读“集成分类”,这就是您需要的关键字。

    【讨论】:

    • 您有什么特别适合机器学习新手推荐的书吗?
    • 嗯,“Weka 书”对于机器学习来说肯定是不错的,但我不知道它是否谈到了集成。
    猜你喜欢
    • 1970-01-01
    • 2020-10-07
    • 2018-03-25
    • 1970-01-01
    • 2018-07-06
    • 2020-09-25
    • 2013-12-11
    • 1970-01-01
    • 2020-06-26
    相关资源
    最近更新 更多