交叉熵损失函数

nn.CrossEntropyLoss

交叉熵损失函数是用于分类的损失函数，交叉熵越低，概率越相似

熵是信息学之父香农借鉴热力学提出的，用来描述一个事件的不确定性，即概率。如果熵越大，事件发生的可能性越小.（越不确定，直观上就是发生的可能性最小，其实用越不确定更好，因为涉及一些概念的混合）
交叉熵损失函数

这是一个两点分布的信息熵，其熵在概率为0.5时达到最大值0.69，之前我说概率最小的时候熵最大，在这里就不是（我的表达就是错误的，或者我的意思就是不确定性最大），这里的0.5表示模型判断什么都是0.5的概率，一半一半，相当于没有判断能力。带有极大的不确定性，这才表示了熵的含义，熵是用来表达不确定性的，熵越大，越不确定。是不确定性的度量。
想对熵有很好的理解，首先要对自信息有了解，自信息就很简单，事件发生的概率越大，自信息的值越小
而熵就是自信息的期望，期望就是指平均值，可见熵表示了事件发生的平均可能性，所以这个不确定性是不是就是指这种平均可能性呢？

熵是自信息的期望

交叉熵损失函数

softMax层很简单的目的，就是将上一层的输出值缩放到0-1之间

交叉熵损失函数

加入weight,loss会有比值变化

交叉熵损失函数