【问题标题】:When training a classifier based on a training set, what should I do if some of the training samples are worth more (are more valuable) than the rest?在基于训练集训练分类器时,如果某些训练样本比其他样本更有价值(更有价值),我该怎么办?
【发布时间】:2017-01-29 00:32:24
【问题描述】:

我正在尝试根据给定的训练集训练分类器(比如每类 100 个样本的 2 类问题)。如何训练我的分类器,使训练集中的一些样本(比如每个类的前 20 个样本)比其他样本更有价值? (由于某些原因,这些样本与测试集更相似,因此在训练分类器时应该考虑更重要) 如果我只是将这些样本复制几次可以吗?

我不知道这是否重要,但我的分类器包含一个特征选择步骤(一种基于过滤器的方法,称为基于快速相关的过滤器)和一个分类步骤(线性 SVM)。另外,我的测试集是完全不同的集,我根本不能用于训练的任何步骤。

【问题讨论】:

    标签: machine-learning artificial-intelligence svm data-science


    【解决方案1】:

    如果我只是复制这些样本几次可以吗?

    这取决于您使用的方法。对于某些人来说-很好,就像您所指的 SVM 一样-它对样本具有附加损失函数,并且不关心重复项。 然而这不是您应该使用 SVM 解决问题的方式,因为它直接支持样本的加权,而您应该这样做 - 为样本附加权重。根据使用的库/语言,它可能可用或不可用,但这是正确的方法。例如,在 libsvm 中,您只需将 sample_weight 传递给您的 fit 调用,例如 here

    【讨论】:

    • 由于我在分类步骤之前使用了特征选择算法,我相信对这两个步骤都执行示例敏感技巧更有意义。我的特征选择算法(称为基于快速相关的过滤器)是一种基于过滤器的方法,它根据特征和类的相关性和信息增益来选择特征。如果我在该步骤中复制重要的样本可以吗?
    • 首先检查您的方法是否没有实施样本加权,因为对于这样的方法应该是直截了当的。在 svm 中加权可能仍然更好(即使它使您的代码更加复杂)。附带说明 - 您确定需要此功能选择吗?听起来很奇怪,线性 svm 本身就很好,你会遇到同质的联合优化问题
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-04-19
    • 2019-12-20
    • 1970-01-01
    • 2017-12-12
    • 2013-12-21
    • 2018-06-26
    • 1970-01-01
    相关资源
    最近更新 更多