Bi-Directional Attention Flow For Machine Comprehension

。

这种网络最大的优点是能够利用 SGD 训练更深的网络，在实验中，即使加到 100 层也能够有效训练。

简评

文中采用新的 attention 机制，从实验效果来看确实提高了效果，在 development set 和 test set 上分别取得了 77.8% 和 78.1% 的 F-score。同时在 development set 上去掉 C2Q 与去掉 Q2C 相比，分别下降了 12 和 10 个百分点，也就是说 C2Q 这个方向上的 attention 更为重要。

这篇文章中的 attention 计算后流动到下一层中，而不是像 Memory Networks 里面动态计算 attention。这么做一方面可以减少早期加权和造成的损失，另一方面也能够将之前错误 attention 的信息恢复。

2021-08-24
2021-04-10
2021-06-25
2021-04-02
2021-06-07
2021-07-04
2021-06-21
2021-05-27