当我们添加多项式特征时，损失函数是否变得非凸？答案

【问题标题】：Does loss function becomes non convex when we add polynomial features?当我们添加多项式特征时，损失函数是否变得非凸？
【发布时间】：2020-11-06 12:17:08
【问题描述】：

当我们在多项式回归、逻辑回归、svm 的情况下使用多项式特征时，损失函数是否变得非凸？

【问题讨论】：

标签： machine-learning regression classification loss-function non-convex

【解决方案1】：

如果您尝试估计的任何X -> y 选择的损失函数都是凸的，那么添加一组固定多项式特征不会改变这一点。您只是将初始问题与估计问题X' -> y 交换，其中X' 具有附加功能。

如果您还尝试估计新特征的参数，那么在这些维度上很容易得到非凸损失（假设有参数可供选择——如果您只是在谈论添加多项式基础则不适用）。

作为某种证明措施，以一维估计问题为例并选择特征f(x) = (x-a)^3。假设您的数据集具有单点 (0, 0)。通过一些工作，您可以证明即使对于新特征的线性回归，损失在参数a 的某些地方也是非凸的。请注意，对于新特征，损失仍然是凸的——标准线性回归总是满足该属性——事实上，我们使用线性回归和多项式的选择来构建一个新的非凸回归器，导致这种行为.

【讨论】：

With a little work you can show that the loss even for linear regression is non-convex, linear regression - loss 它是非凸的，它从来不是非凸函数，只有域（X）可能是非凸的，这意味着问题本身没有解决方案无约束优化。
sum of squared residuals 根据定义是一个严格凸函数。
非凸性来自于一点点回避。没有任何论据表明残差平方和在 X、y 和任何权重中是凸的。如果这些变量是根据其他变量定义的（如示例(x-a)^3），那么损失仍然可以是非凸的在这些附加变量中。
对于严格凸的，你总是有一个唯一的解决方案，我们关注的是函数本身，而不是学习率，我们可以很容易地选择合适的学习率，例如使用线搜索，您的观点完全不正确，凸性的一个明显示例是使用Normal Equation 的最小二乘解决方案，无需选择学习率，而对于使用二阶近似的迭代解决方案，学习率选择根本不是问题
答案很笼统，与学习率、独特解决方案或您评论中的任何其他内容无关。如果您 (1) 添加多项式特征并 (2) 适当地参数化这些特征，那么这些参数中的损失可能是非凸的。最初的问题没有具体说明如何选择多项式特征，因此涵盖这种可能性是合适的。您是反对我选择覆盖它，还是不同意所断言的非凸性？