导读

论文title:Mixtape: Breaking the Softmax Bottleneck Efficiently
论文地址:http://papers.nips.cc/paper/9723-mixtape-breaking-the-softmax-bottleneck-efficiently
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

摘要

softmax瓶颈已被证明会限制神经语言模型的表达。Mixture of Softmaxes(MoS)是解决这种理论限制的有效方法,但是与softmax相比,在内存和时间方面都比较昂贵。 我们建议使用Mixtape,它是一种输出层,它通过三种新技术(ogit space vectorgating, sigmoid tree decomposition, and gate sharing)更有效地打破了softmax瓶颈。 Mixtape层将MoS层的效率提高了3.5倍至10.5倍,同时获得了类似的性能。 配备Mixtape的网络比具有10-30K词汇量的基于softmax的网络仅慢20%至34%,并且性能优于softmax的复杂性和转换质量。

Softmax瓶颈

通常来讲,网络的最后一步是对一个字典做Softmax,然后取其中概率最大的一个作为预测值,即给定上下文CC,我们想估计下一个字符的条件分布P(XC)P^{*}(X|C).
语言建模的常用方法是使用神经网络对上下文进行编码,将下一个标记转换成向量表示hcwxh_{c} 和w_{x},然后通过softmax函数对条件分布进行建模,
网络的预测值:
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
我们以矩阵形式写下对数概率:
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

有效突破Softmax瓶颈

Mixture of Softmaxes (MoS)
MoS使用以下公式进行条件分布:
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
之前的A实际上就成为了:
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
从而成为了一个高秩矩阵。然而,这种方法大量使用了exp运算,从而效率很低,并且需要存储每一个logit,对内存要求要很大。
为了缓解效率问题,我们将介绍我们的新颖方法Mixtape,该方法可提高MoS效率,同时又不影响学习高级表示的能力。

  • Logit空间向量门控
  • Sigmoid树分解
    Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
    Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
  • 门控共享
    对数概率矩阵:
    Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

实验

我们的实验包括三个部分。 首先,我们证明了拟议的Mixtape层能够通过打破softmax瓶颈来改善最新的机器翻译系统。 其次,我们比较了Mixtape,MoS和softmax的困惑,翻译质量,速度和内存限制,以证明Mixtape能够在有效性和效率之间取得良好的平衡。 第三,通过消融研究,我们展示了门共享的好处。
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

  • WMT14的结果
    Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
    Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)
  • 消融研究与基线比较
    Mixtape: Breaking the Softmax Bottleneck Efficiently(有效突破Softmax瓶颈)

总结

本文提出使用Mixtape来更有效地打破softmax瓶颈。 与MoS相比,Mixtapeis的计算效率更高。 与softmax相比,Mixtape具有可比的效率,并且在准确性方面也优越。 根据以上结果,可以将Mixtape用作即插即用层,以总体上改善有条件和无条件文本的生成。

相关文章:

  • 2022-03-01
  • 2022-12-23
  • 2021-09-26
  • 2021-04-18
  • 2021-12-10
  • 2021-11-24
  • 2022-12-23
猜你喜欢
  • 2021-04-27
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-09-22
  • 2022-12-23
  • 2021-11-29
相关资源
相似解决方案