【问题标题】:Does loss function becomes non convex when we add polynomial features?当我们添加多项式特征时,损失函数是否变得非凸?
【发布时间】:2020-11-06 12:17:08
【问题描述】:

当我们在多项式回归、逻辑回归、svm 的情况下使用多项式特征时,损失函数是否变得非凸?

【问题讨论】:

    标签: machine-learning regression classification loss-function non-convex


    【解决方案1】:

    如果您尝试估计的任何X -> y 选择的损失函数都是凸的,那么添加一组固定多项式特征不会改变这一点。您只是将初始问题与估计问题X' -> y 交换,其中X' 具有附加功能。

    如果您还尝试估计新特征的参数,那么在这些维度上很容易得到非凸损失(假设有参数可供选择——如果您只是在谈论添加多项式基础则不适用)。

    作为某种证明措施,以一维估计问题为例并选择特征f(x) = (x-a)^3。假设您的数据集具有单点 (0, 0)。通过一些工作,您可以证明即使对于新特征的线性回归,损失在参数a 的某些地方也是非凸的。请注意,对于新特征,损失仍然是凸的——标准线性回归总是满足该属性——事实上,我们使用线性回归和多项式的选择来构建一个新的非凸回归器,导致这种行为.

    【讨论】:

    • With a little work you can show that the loss even for linear regression is non-convex, linear regression - loss 它是非凸的,它从来不是非凸函数,只有域(X)可能是非凸的,这意味着问题本身没有解决方案无约束优化。
    • sum of squared residuals 根据定义是一个严格凸函数。
    • 非凸性来自于一点点回避。没有任何论据表明残差平方和在 X、y 和任何权重中是凸的。如果这些变量是根据其他变量定义的(如示例(x-a)^3),那么损失仍然可以是非凸的在这些附加变量中
    • 对于严格凸的,你总是有一个唯一的解决方案,我们关注的是函数本身,而不是学习率,我们可以很容易地选择合适的学习率,例如使用线搜索,您的观点完全不正确,凸性的一个明显示例是使用Normal Equation 的最小二乘解决方案,无需选择学习率,而对于使用二阶近似的迭代解决方案,学习率选择根本不是问题
    • 答案很笼统,与学习率、独特解决方案或您评论中的任何其他内容无关。如果您 (1) 添加多项式特征并 (2) 适当地参数化这些特征,那么这些参数中的损失可能是非凸的。最初的问题没有具体说明如何选择多项式特征,因此涵盖这种可能性是合适的。您是反对我选择覆盖它,还是不同意所断言的非凸性?
    猜你喜欢
    • 2017-10-10
    • 2020-04-16
    • 2018-11-16
    • 2019-11-16
    • 1970-01-01
    • 2023-04-03
    • 2015-11-21
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多