在pytorch中计算KLDiv loss时,注意reduction='batchmean',不然loss不仅会在batch维度上取平均,还会在概率分布的维度上取平均。 参考:KL散度-相对熵 相关文章: 2021-06-20 2022-12-23 2022-12-23 2021-12-03 2021-07-04 2021-11-23 2021-04-26