【机器学习】softmax回归（一）

在 softmax回归中，我们解决的是多分类问题（相对于 logistic 回归解决的二分类问题），类标【机器学习】softmax回归（一）可以取个不同的值（而不是 2 个）。因此，对于训练集，我们有。（注意此处的类别下标从 1 开始，而不是 0）。例如，在 MNIST 数字识别任务中，我们有个不同的类别。

对于给定的测试输入【机器学习】softmax回归（一），如果输入的图片分辨率是28x28.则数据x是一个784的向量。我们想用假设函数针对每一个类别j估算出概率值，j表示第j类。也就是说，我们想估计的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个【机器学习】softmax回归（一）维的向量（向量元素的和为1）来表示这个估计的概率值。具体地说，我们的假设函数形式如下：

【机器学习】softmax回归（一）

其中【机器学习】softmax回归（一）是模型的参数。请注意这一项对概率分布进行归一化，使得所有概率之和为 1 。

为了方便起见，我们同样使用符号【机器学习】softmax回归（一）来表示全部的模型参数。在实现Softmax回归时，将用一个的矩阵来表示会很方便，该矩阵是将都是784维的列向量。按行罗列起来得到的，如下所示：

【机器学习】softmax回归（一）

代价函数

现在我们来介绍 softmax 回归算法的代价函数。在下面的公式中，是示性函数，其【机器学习】softmax回归（一）取值规则为：

 值为真的表达式

，【机器学习】softmax回归（一）值为假的表达式。举例来说，表达式的值为1 ，的值为 0。我们的代价函数为：

【机器学习】softmax回归（一）

外层求和是表示共有m个样本数据，内层求和表示j从1到k表示共有k类，对于minist数据集来说k=10，这里j是从1开始。

值得注意的是，上述公式是logistic回归代价函数的推广。logistic回归代价函数可以改为：

【机器学习】softmax回归（一）

可以看到，Softmax代价函数与logistic 代价函数在形式上非常类似，只是在Softmax损失函数中对类标记的【机器学习】softmax回归（一）个可能值进行了累加。注意在Softmax回归中将分类为类别的概率为：

【机器学习】softmax回归（一）

.

现在来讲讲softmax回归的代价函数的求导过程：

【机器学习】softmax回归（一）

上面求的对theta j求导实际上是个784维的向量，向量中每一个数字代表着图片中每个像素的权重。

对于【机器学习】softmax回归（一）的最小化问题，目前还没有闭式解法。因此，我们使用迭代的优化算法（例如梯度下降法，或 L-BFGS）。经过求导，我们得到梯度公式如下：

【机器学习】softmax回归（一）

让我们来回顾一下符号 " 【机器学习】softmax回归（一） " 的含义。本身是一个向量，它的第个元素是对的第个分量的偏导数。此时的l 表示的图片中第l个像素。

有了上面的偏导数公式以后，我们就可以将它代入到梯度下降法等算法中，来最小化【机器学习】softmax回归（一）。例如，在梯度下降法的标准实现中，每一次迭代需要进行如下更新: (）。

当实现 softmax 回归算法时，我们通常会使用上述代价函数的一个改进版本。具体来说，就是和权重衰减(weight decay)一起使用。这个具体的后面再介绍。

参考：http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92

https://blog.csdn.net/cheese_pop/article/details/51264567

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode