【发布时间】:2021-09-29 08:42:27
【问题描述】:
我有一个包含多个节点输出的网络,每个节点都有一个损失函数,loss1、loss2、loss3.. 最终的损失函数是 loss = loss1 + loss2 + loss3。 当 loss.backward() 被调用时。所有节点都将得到反向传播。但我的问题是:我是否需要将 loss1、loss2 和 loss3 的输出值缩放到相似的范围内?其背后的逻辑是什么? 例如,如果 loss1 产生 10k 范围内的值,而 loss2 和 loss3 都在 1-10 范围内,这是否意味着与 loss1 关联的节点在整体训练中会更重要?此处使用相同的优化器。
谢谢。
【问题讨论】: