softmax 分类器
两种常用的分类器之一。

(1)信息论中交叉熵

)

p是指真实的分布,q是估计的分布。
式中H(p)是真实分布的熵,当给定分布,熵就确定;
)是相对熵。
softmax分类器就是要最小化估计分类概率和真实分布之间的交叉熵。
交叉熵用于评估两个分布的相似度。

(2)概率的角度

softmax函数

fj

给定输入xi和参数w,分配给正确分类标签的归一化概率。

2. softmax在实际应用中的问题

softmax函数

fj

分子和分母都做指数运算,当数值很大的时候,会出现指数爆炸等问题。
常用的处理方法是分子分母同时乘以一个常数C,
fj+logC

C通常取值为),使最大的值为0.

# python实现
 f -= np.max(f)
 p = np.exp(f)/np.sum(np.exp(f))

3. 一个简单的示例

softmax 分类器

这里需要强调的是:最后的输出直接由权重上一层的输出+偏置*求得,并没有经过sigmoid函数。
这里的输出结果是]

1) 先求

]

2) 求0.28=0.058+2.36+1.32=3.738

相关文章: