机器阅读理解学习笔记03
常见机器阅读理解模型(二)
一.Multi-Hop/Pointer network
Multi-Hop
-
One-Hop —> Multi Hop
多次提取充足信息
语义抽象化 -
句子Attention的layer推进
-
TimeStep状态推进,与主序列维度一致
Pointer network
从输入序列中找到相应的 tokens 来作为输出,其利用 Attention 作为 pointer,从输入序列中选择一个位置,并将这个位置所指向的词作为输出。
二.R-net
- R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS (Microsoft Research Asia)
- Attention计算中加入门机制
整体架构
QUESTION AND PASSAGE ENCODER
- 编码层
使用GRU替代LSTM
GATED ATTENTION-BASED RECURRENT NETWORKS
- 交互层
SELF-MATCHING ATTENTION
- 交互层
OUTPUT LAYER
- 输出层
总结
- 改进了RNN在机器阅读理解中的应用
- 将注意力机制融入RNN
- 门控循环神经网络
论文:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf
三.FusionNet
- FUSIONNET: FUSING VIA FULLY-AWARE ATTENTION WITH APPLICATION TO
MACHINE COMPREHENSION(Microsoft Business AI and Research, National
Taiwan University) - 贡献:
单词历史
全关注注意力
架构
- 输入向量
- 集成组件
- 融合过程
融合过程
(1)词级融合:单词是否出现
(2)高层融合:更新高层次表示
(2’)高层融合(可选择的):高层次融合到上下文单词
(3)自我加强融合:上下文高层次表示本身self-attention
(3’) 自我加强融合(可选择的):融合前进行自我融合
单词历史(History-of-word)
- 一个单词从低层次到高层次所有表示向量一起称做这个词的history。
- 方法:将所有层拼接
可以更好理解语义
降低效率
全关注注意力
编码层
- Glove:300
- CoVe:600
- POS:12
- NER:8
- Other:2
交互层
- 单词注意力层
- 阅读层
- 问题理解层
- 全关注互注意力层
- 全关注自注意力层
交互层架构
输出层
论文:https://arxiv.org/pdf/1711.07341.pdf
四.QA-Net
- QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION(Carnegie Mellon University, Google Brain)
- RNN训练较慢
- CNN+Self-Attention
- 3-13倍的训练增速以及4-9倍的推断增速(准确不下降)
- 采用神经机器翻译模型生成的返译数据来实现数据扩增
整体架构
Input Embedding Layer
- Word embedding & Character embedding
- 300 GLOVE embedding(OOV : 随机)
- 200 Character embedding
- 基于 Bi-DAF
- 采用两层 Highway Network
- Character_max_len = 16
Embedding Encoder Layer
- [convolution-layer × # + self-attention-layer + feed-forward-layer]
- Layer-Norm & Batch-Norm
- Depthwise separable convolution(记忆效果好,泛化能力强) size=7 d=128 num=4
- Multi-head Attention, a=8
- 输出d=128
卷积示例:
Context-Query Attention Layer
Model Encoder Layer
- 与 Embedding Encoder Layer 一致
- Depthwise separable convolution:num=2
- 权值共享
Output layer
数据增强
Positional Encoding
总结
- Bert前的后期佳作
- 使用了很多bert相关的特性
- 炫技 比较复杂
论文:https://openreview.net/pdf?id=B14TlG-RW
MRC框架:https://github.com/sogou/SogouMRCToolkit