这种网络最大的优点是能够利用 SGD 训练更深的网络,在实验中,即使加到 100 层也能够有效训练。

简评

文中采用新的 attention 机制,从实验效果来看确实提高了效果,在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 development set 上去掉 C2Q 与 去掉 Q2C 相比,分别下降了 12 和 10 个百分点,也就是说 C2Q 这个方向上的 attention 更为重要。

这篇文章中的 attention 计算后流动到下一层中,而不是像 Memory Networks 里面动态计算 attention。这么做一方面可以减少早期加权和造成的损失,另一方面也能够将之前错误 attention 的信息恢复。

相关文章:

  • 2021-08-24
  • 2021-04-10
  • 2021-06-25
  • 2021-04-02
  • 2021-06-07
  • 2021-07-04
  • 2021-06-21
  • 2021-05-27
猜你喜欢
  • 2021-06-05
  • 2021-10-23
  • 2021-08-23
  • 2021-08-08
  • 2021-10-11
  • 2021-12-02
  • 2021-05-28
相关资源
相似解决方案