【问题标题】:Kernel SVM primal with Stochastic Gradient Descent具有随机梯度下降的内核 SVM 原始
【发布时间】:2012-12-10 01:47:20
【问题描述】:

简而言之:我目前正在阅读带有内核的在线学习 (http://books.nips.cc/papers/files/nips14/AA33.pdf) 以获得乐趣,但我无法弄清楚他是如何从等式 6 和 7 得到等式 8。

这个想法是:我们希望最小化风险函数

$R_stoch\[f,t\]:=c(x_t,y_t,f(x_t))+\lambda\Omega\[f\]$

如果我们想在f 上应用表示定理,写成

$f(x)=\sum\alpha_i k(x,x_i)$

我们如何才能获得STOCHASTIC 梯度下降更新?

【问题讨论】:

    标签: statistics machine-learning


    【解决方案1】:

    一组 k(xi, x) 似乎构成了 H 的基础,并且由于 f em>在H中,那么f可以写成“核函数”的线性组合。

    所以假设 k(xi, x) 的集合构成 H 的基础,很明显,如果我们有一些线性冲突左侧和右侧的另一个,并且它们相等,那么它们的基向量系数也应该相等(从线性代数中众所周知,向量相等意味着向量系数(在相同的基础上!)平等)。

    【讨论】:

    • 非常感谢您的回复,很有启发性。不过,还有一件事让我感到困惑。
    • 他们如何计算 ||f||^2 作为 f 的导数?再次以 f=sum_{i=1}^n a_ik(x,x_i) 为例。那么 ||f|||==sum_isum_ja_ia_jk(x_i,x_j)=transpose(A)*KA 其中 K 是 gram 矩阵,A 是系数向量。那么导数将是 KA+transpose(A)*K=2*KA (梯度向量)。而简而言之,f 就是 K_x*A(一个数字),其中 K_x 是 gram 矩阵的第 x 行。
    • 哦,在 SO 上读/写数学公式太难了……我已经在乳胶中根据定义编写了梯度的简单推导:link
    • 关于你的论点:如果我们选择一个正交基,那么 ||f||^2 的导数将是 2A,其中 A 是 f :-) f 是向量,因为它位于线性空间中(并且是基向量的线性组合)。
    • 再次非常感谢您。在这个过程的某些阶段,我仍然感到困惑。所以我在上面写了一个(希望)更清晰的规范。
    猜你喜欢
    • 2016-06-13
    • 2016-09-25
    • 1970-01-01
    • 2021-12-18
    • 2018-12-10
    • 2021-02-20
    • 2019-06-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多