sigmoid与softmax - 爱码网

许多分类网络的输出层的**函数会用到sigmoid与softmax，两者有何区别呢？
一，从函数定义上来看，sigmoid**函数的定义域能够取任何范围的实数，而返回的输出值在0到1的范围内。sigmoid函数也被称为S型函数，这是由于其函数曲线类似于S型。

Softmax函数计算n个不同事件的概率分布。一般来说，这个函数将会计算每个目标类别在所有可能的目标类中的概率。计算出的概率将有助于确定给定输入的目标类别。使用Softmax的主要优点是输出概率的范围，范围为0到1，所有概率的和将等于1。如果将softmax函数用于多分类模型，它会返回每个类别的概率，并且目标类别的概率值会很大。指数公式计算给定输入值的指数和输入中所有值的指数值之和。那么输入值的指数与指数值之和的比值就是softmax函数的输出。
sigmoid与softmax
二，使用分类类型
使用softmax和sigmoid**函数来做多类分类和多标签分类，一般softmax用于多分类。sigmoid用于二分类或多标签分类。

多分类中首先用softmax将logits转换成一个概率分布，然后取概率值最大的作为样本的分类。softmax的主要作用其实是在计算交叉熵上，将logits转换成一个概率分布后再来计算，然后取概率分布中最大的作为最终的分类结果，这就是将softmax**函数应用于多分类中。损失函数设置为categorical_crossentropy损失函数。

sigmoid一般不用来做多分类，而是用来做二分类，它是将一个标量数字转换到[0,1]之间，如果大于一个概率阈值(一般是0.5)，则认为属于某个类别，否则不属于某个类别。这一属性使得其适合应用于多标签分类之中，在多标签分类中，大多使用binary_crossentropy损失函数。它是将一个标量数字转换到[0,1]之间，如果大于一个概率阈值(一般是0.5)，则认为属于某个类别。本质上其实就是针对logits中每个分类计算的结果分别作用一个sigmoid分类器，分别判定样本是否属于某个类别同样假设，神经网络模型最后的输出是这样一个向量logits=[1,2,3,4,5,6,7,8,9,10], 就是神经网络最终的全连接的输出。这里假设总共有10个分类。通过sigmoid应该会将logits中每个数字都变成[0,1]之间的概率值，假设结果为[0.01, 0.05, 0.4, 0.6, 0.3, 0.1, 0.5, 0.4, 0.06, 0.8], 然后设置一个概率阈值，比如0.3，如果概率值大于0.3，则判定类别符合，那么该输入样本则会被判定为类别3、类别4、类别5、类别7及类别8。即一个样本具有多个标签。
在这里强调一点：将sigmoid**函数应用于多标签分类时，其损失函数应设置为binary_crossentropy。