在基于训练集训练分类器时，如果某些训练样本比其他样本更有价值（更有价值），我该怎么办？答案

【问题标题】：When training a classifier based on a training set, what should I do if some of the training samples are worth more (are more valuable) than the rest?在基于训练集训练分类器时，如果某些训练样本比其他样本更有价值（更有价值），我该怎么办？
【发布时间】：2017-01-29 00:32:24
【问题描述】：

我正在尝试根据给定的训练集训练分类器（比如每类 100 个样本的 2 类问题）。如何训练我的分类器，使训练集中的一些样本（比如每个类的前 20 个样本）比其他样本更有价值？（由于某些原因，这些样本与测试集更相似，因此在训练分类器时应该考虑更重要）如果我只是将这些样本复制几次可以吗？

我不知道这是否重要，但我的分类器包含一个特征选择步骤（一种基于过滤器的方法，称为基于快速相关的过滤器）和一个分类步骤（线性 SVM）。另外，我的测试集是完全不同的集，我根本不能用于训练的任何步骤。

【问题讨论】：

标签： machine-learning artificial-intelligence svm data-science

【解决方案1】：

如果我只是复制这些样本几次可以吗？

这取决于您使用的方法。对于某些人来说-很好，就像您所指的 SVM 一样-它对样本具有附加损失函数，并且不关心重复项。然而这不是您应该使用 SVM 解决问题的方式，因为它直接支持样本的加权，而您应该这样做 - 为样本附加权重。根据使用的库/语言，它可能可用或不可用，但这是正确的方法。例如，在 libsvm 中，您只需将 sample_weight 传递给您的 fit 调用，例如 here。

【讨论】：

由于我在分类步骤之前使用了特征选择算法，我相信对这两个步骤都执行示例敏感技巧更有意义。我的特征选择算法（称为基于快速相关的过滤器）是一种基于过滤器的方法，它根据特征和类的相关性和信息增益来选择特征。如果我在该步骤中复制重要的样本可以吗？
首先检查您的方法是否没有实施样本加权，因为对于这样的方法应该是直截了当的。在 svm 中加权可能仍然更好（即使它使您的代码更加复杂）。附带说明 - 您确定需要此功能选择吗？听起来很奇怪，线性 svm 本身就很好，你会遇到同质的联合优化问题