特征长度如何依赖于 SVM 分类器中的预测答案

【问题标题】：How Feature length depend on prediction in SVM classifier特征长度如何依赖于 SVM 分类器中的预测
【发布时间】：2015-03-03 18:14:44
【问题描述】：

目前我正在使用 opencv 中的 SVM 分类器进行英文字母分类。我在做上述事情时有以下疑问

【问题讨论】：

【解决方案1】：

1) 特征的长度本身并不重要，重要的是特征的预测质量

2) 不，它不依赖于样本的数量，而是依赖于特征的数量（预测一般很快）

3) 如果特征处于非常不同的值范围内，则需要进行归一化

4) 基本上有标准化（均值、标准差）和缩放（xmax -> +1、xmean -> -1 或 0）——你可以同时做两个，看看哪个更好

【讨论】：

【解决方案2】：

在谈论分类时，数据由具有许多特征的特征向量组成。在图像处理中，也有映射到分类特征向量的特征。所以你的“特征长度”实际上是特征的数量或特征向量的大小。

1) 特征的数量很重要。原则上，更多的特征可以实现更好的分类，但也会导致过度训练。为避免后者，您可以添加更多样本（更多特征向量）。

2) 是的，因为预测时间取决于支持向量的数量和支持向量的大小。但由于预测非常快，除非您有一些实时要求，否则这不是问题。

3) 虽然 SVM 作为最大边距分类器对不同的特征值范围非常稳健，但具有较大值范围的特征将比具有较小范围的特征具有更大的权重。如果类不能完全分离，这尤其适用于惩罚计算。

4) 由于 SVM 对不同的值范围非常稳健（与面向集群的算法相比），这不是最大的问题。通常绝对最小值/最大值缩放为 -1/+1。如果您知道数据的预期范围，则可以缩放该范围，并且数据中的测量误差不会影响缩放。在迭代过程中添加训练数据时，固定范围也更可取。

【讨论】：