对第i个样本来说, 如果对Wj求梯度,就要对Y矩阵中Si的每一列都对Wj求导,如果这一列不等于标签,则展开的损失函数中只有第j项Wj*Xi可以对Wj求导,结果为Xi;
如果这一列正好等于标签,也就是j==label,对Wlabel求导,结果为-1,这一列的损失函数为0,而每一列的loss>0的求导结果都为-1,此时的梯度就是-1 x count(loss>0)。
相关文章:
对第i个样本来说, 如果对Wj求梯度,就要对Y矩阵中Si的每一列都对Wj求导,如果这一列不等于标签,则展开的损失函数中只有第j项Wj*Xi可以对Wj求导,结果为Xi;
如果这一列正好等于标签,也就是j==label,对Wlabel求导,结果为-1,这一列的损失函数为0,而每一列的loss>0的求导结果都为-1,此时的梯度就是-1 x count(loss>0)。
相关文章: