使用多项式内核是否等同于添加特征？答案

【问题标题】：Is using the polynomial kernel equivalent to adding features?使用多项式内核是否等同于添加特征？
【发布时间】：2020-04-16 01:29:56
【问题描述】：

在第 352 页，“统计学习简介”，James 等人。解释使用多项式核的效果如下：

它本质上相当于在一个支持向量分类器中拟合涉及 d 次多项式的高维空间，而不是比在原始特征空间中。

然而，它接着指出，当使用非线性内核时，预测是使用：

现在，这个等式中的参数数量是 1 + |S|，其中 |S|是支持向量的数量。如果我明确地使用附加功能，我将为每个功能设置一个单独的权重，这可能超过 1 + |S|参数。因此，似乎使用内核提供的表达能力比使用显式特征要少。它是否正确？

【问题讨论】：

标签： machine-learning svm

【解决方案1】：

从某种意义上说，如果特征数 (|F|) 大于 |S|，您将拟合更多参数是正确的。用 |S| 拟合 SVM

您不能对给定的特征（x 和 y 轴）进行线性组合来完美地分离黑白标签，但是您可以对 F 进行一些非线性变换（右图）。您可以尝试将特征的转换添加为附加特征（例如[f_1, f_2, f_1*f_1, f_1*f_2, f_2*f_2]，其中f_1, f_2 是您的原始特征），或者您可以改为拟合 SVM。在 SVM 中，您不会对某些转换后的特征进行线性拟合，而是对每个数据点通过所选内核与支持向量的关系进行线性拟合。

第二个考虑因素是，添加与您的标签无关的额外特征会给您的拟合带来噪音，并且可能具有非零权重，因为它们会根据您的数据中的一些随机模式进行检测。因此，拟合更多参数并不总是对模型有所帮助。

【讨论】：

1) 我不明白这一点。为什么使用显式特征的线性拟合不太准确？ 2）这些不相关的特征可能会获得零权重，不是吗？
@AlwaysLearning 我希望能改进我的答案。
1) 您很好地解释了如何正确查看 SVM 的功能。然而，这并没有真正解决当添加特征时大量参数所允许的表达能力的确切弥补。 2）如果一个特征与数据相关，那么它就是一个相关特征。如果不是，为什么它会获得很大的权重？
1) 我不知道如何扩展我的答案以回答您认为缺少的内容，因此希望不同的答案可能对您有所帮助。 2）简单的随机机会。如果你有无限的样本和有限的特征，那么你是对的，不相关的特征不应该有很大的权重。如果你在一条直线上取 10 个点，添加一些随机噪声并拟合多项式特征，你会经常看到高阶项的权重很大。