【问题标题】:How to interpret weight distributions of neural net layers如何解释神经网络层的权重分布
【发布时间】:2018-05-24 12:38:24
【问题描述】:

我设计了一个 3 层神经网络,其输入是来自 CNN 和 RNN 的串联特征。网络学习的权重值非常小。对此有何合理解释?以及如何解释 Tensorflow 中的权重直方图和分布?有什么好的资源吗?

这是使用张量板可视化的 3 层神经网络的第一个隐藏层的权重分布。如何解释这个?所有的权重都占零?

这是 3 层神经网络的第二个隐藏层的权重分布:

【问题讨论】:

    标签: machine-learning tensorflow neural-network deep-learning


    【解决方案1】:

    如何解释 Tensorflow 中的权重直方图和分布?

    好吧,您可能没有意识到,但您刚刚在 ML & AI 中提出了 100 万美元的问题......

    模型可解释性是当前研究的一个非常活跃和非常热门的领域(想想圣杯之类的东西),它最近被提出来,尤其是由于(通常是巨大的)深度学习模型在各种任务中的成功;这些模型目前只是黑匣子,我们自然会觉得不舒服……

    有什么好的资源吗?

    可能不完全是您所想的那种资源,我们在这里的主题很合适,但是既然您问...:

    在更实际的层面上:

    这些对于初学者来说应该足够了,并且可以让您大致了解您所询问的主题......

    更新(2018 年 10 月):我在回答问题 Predictive Analytics - “Why” factor?

    时提供了更详细的实用资源列表

    【讨论】:

      【解决方案2】:

      网络学习的权重值非常小。对此有何合理解释?如何解释这个?所有的权重都占零?

      并非所有权重都为零,但很多都是。一个原因是正则化(结合大的,即宽层,网络)正则化使权重变小(L1和L2)。如果您的网络很大,则不需要大多数权重,即可以将它们设置为零并且模型仍然表现良好。

      如何解释 Tensorflow 中的权重直方图和分布?有什么好的资源吗?

      我不太确定重量分布。有一些分析它们的工作,但我不知道一般解释,例如,对于 CNN,已知过滤器/特征的中心权重通常比角落中的权重更大,请参阅 [Locality-Promoting Representation Learning, 2021,ICPR,https://arxiv.org/abs/1905.10661] 对于 CNN,如果您有大型过滤器,您还可以直接可视化权重。例如,对于(简单)e 网络,您可以看到在过度拟合开始之前,权重首先会收敛到某种类别的平均值。这显示在 [NN 中的学习阶段:从拟合多数到拟合少数,2022 年,http://arxiv.org/abs/2202.08299] 的图 2 中 除了权重之外,您还可以查看哪些样本触发了特定特征的最强激活。如果您不想查看单个特征,也可以可视化网络在输入上实际记住的内容,例如,请参阅 [通过解码层激活来解释神经网络,https://arxiv.org/abs/ 2005.13630]。 这些只是几个例子(免责声明我创作了这些作品)——还有成千上万的其他关于可解释性的作品。

      【讨论】:

        猜你喜欢
        • 2016-01-12
        • 1970-01-01
        • 1970-01-01
        • 2019-05-05
        • 1970-01-01
        • 1970-01-01
        • 2017-05-10
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多