具有随机梯度下降的内核 SVM 原始答案

【问题标题】：Kernel SVM primal with Stochastic Gradient Descent具有随机梯度下降的内核 SVM 原始
【发布时间】：2012-12-10 01:47:20
【问题描述】：

简而言之：我目前正在阅读带有内核的在线学习 (http://books.nips.cc/papers/files/nips14/AA33.pdf) 以获得乐趣，但我无法弄清楚他是如何从等式 6 和 7 得到等式 8。

这个想法是：我们希望最小化风险函数

$R_stoch\[f,t\]:=c(x_t,y_t,f(x_t))+\lambda\Omega\[f\]$

如果我们想在f 上应用表示定理，写成

$f(x)=\sum\alpha_i k(x,x_i)$

我们如何才能获得STOCHASTIC 梯度下降更新？

【问题讨论】：

【解决方案1】：

一组 k(x_i, x) 似乎构成了 H 的基础，并且由于 f em>在H中，那么f可以写成“核函数”的线性组合。

所以假设 k(x_i, x) 的集合构成 H 的基础，很明显，如果我们有一些线性冲突左侧和右侧的另一个，并且它们相等，那么它们的基向量系数也应该相等（从线性代数中众所周知，向量相等意味着向量系数（在相同的基础上！）平等）。

【讨论】：

非常感谢您的回复，很有启发性。不过，还有一件事让我感到困惑。
他们如何计算 ||f||^2 作为 f 的导数？再次以 f=sum_{i=1}^n a_ik(x,x_i) 为例。那么 ||f|||==sum_isum_ja_ia_jk(x_i,x_j)=transpose(A)*KA 其中 K 是 gram 矩阵，A 是系数向量。那么导数将是 KA+transpose(A)*K=2*KA （梯度向量）。而简而言之，f 就是 K_x*A（一个数字），其中 K_x 是 gram 矩阵的第 x 行。
哦，在 SO 上读/写数学公式太难了……我已经在乳胶中根据定义编写了梯度的简单推导：link
关于你的论点：如果我们选择一个正交基，那么 ||f||^2 的导数将是 2A，其中 A 是 f :-) f 是向量，因为它位于线性空间中（并且是基向量的线性组合）。
再次非常感谢您。在这个过程的某些阶段，我仍然感到困惑。所以我在上面写了一个（希望）更清晰的规范。