常见机器阅读理解模型(二)

一.Multi-Hop/Pointer network

Multi-Hop

  • One-Hop —> Multi Hop
    多次提取充足信息
    语义抽象化

  • 句子Attention的layer推进
    机器阅读理解学习笔记03

  • TimeStep状态推进,与主序列维度一致
    机器阅读理解学习笔记03

Pointer network

从输入序列中找到相应的 tokens 来作为输出,其利用 Attention 作为 pointer,从输入序列中选择一个位置,并将这个位置所指向的词作为输出。
机器阅读理解学习笔记03

二.R-net

  • R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS (Microsoft Research Asia)
  • Attention计算中加入门机制

整体架构

机器阅读理解学习笔记03

QUESTION AND PASSAGE ENCODER

  • 编码层
    使用GRU替代LSTM
    机器阅读理解学习笔记03

GATED ATTENTION-BASED RECURRENT NETWORKS

  • 交互层
    机器阅读理解学习笔记03

SELF-MATCHING ATTENTION

  • 交互层
    机器阅读理解学习笔记03

OUTPUT LAYER

  • 输出层
    机器阅读理解学习笔记03
    机器阅读理解学习笔记03

总结

  • 改进了RNN在机器阅读理解中的应用
  • 将注意力机制融入RNN
  • 门控循环神经网络

论文:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf

三.FusionNet

  • FUSIONNET: FUSING VIA FULLY-AWARE ATTENTION WITH APPLICATION TO
    MACHINE COMPREHENSION(Microsoft Business AI and Research, National
    Taiwan University)
  • 贡献:
    单词历史
    全关注注意力

架构

  • 输入向量
  • 集成组件
  • 融合过程
    机器阅读理解学习笔记03

融合过程

(1)词级融合:单词是否出现
(2)高层融合:更新高层次表示
(2’)高层融合(可选择的):高层次融合到上下文单词
(3)自我加强融合:上下文高层次表示本身self-attention
(3’) 自我加强融合(可选择的):融合前进行自我融合

单词历史(History-of-word)

  • 一个单词从低层次到高层次所有表示向量一起称做这个词的history。
  • 方法:将所有层拼接
    可以更好理解语义
    降低效率

全关注注意力

机器阅读理解学习笔记03

编码层

  • Glove:300
  • CoVe:600
  • POS:12
  • NER:8
  • Other:2

交互层

  • 单词注意力层
  • 阅读层
  • 问题理解层
  • 全关注互注意力层
  • 全关注自注意力层

交互层架构

机器阅读理解学习笔记03

输出层

机器阅读理解学习笔记03
论文:https://arxiv.org/pdf/1711.07341.pdf

四.QA-Net

  • QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION(Carnegie Mellon University, Google Brain)
  • RNN训练较慢
  • CNN+Self-Attention
  • 3-13倍的训练增速以及4-9倍的推断增速(准确不下降)
  • 采用神经机器翻译模型生成的返译数据来实现数据扩增

整体架构

机器阅读理解学习笔记03

Input Embedding Layer

  • Word embedding & Character embedding
  • 300 GLOVE embedding(OOV : 随机)
  • 200 Character embedding
  • 基于 Bi-DAF
  • 采用两层 Highway Network
  • Character_max_len = 16
    机器阅读理解学习笔记03

Embedding Encoder Layer

  • [convolution-layer × # + self-attention-layer + feed-forward-layer]
  • Layer-Norm & Batch-Norm
  • Depthwise separable convolution(记忆效果好,泛化能力强) size=7 d=128 num=4
  • Multi-head Attention, a=8
  • 输出d=128
    卷积示例:
    机器阅读理解学习笔记03

Context-Query Attention Layer

机器阅读理解学习笔记03

Model Encoder Layer

  • 与 Embedding Encoder Layer 一致
  • Depthwise separable convolution:num=2
  • 权值共享

Output layer

机器阅读理解学习笔记03

数据增强

Positional Encoding
机器阅读理解学习笔记03

总结

  • Bert前的后期佳作
  • 使用了很多bert相关的特性
  • 炫技 比较复杂

论文:https://openreview.net/pdf?id=B14TlG-RW

MRC框架:https://github.com/sogou/SogouMRCToolkit

相关文章: