机器阅读理解学习笔记03

常见机器阅读理解模型（二）

一.Multi-Hop/Pointer network

Multi-Hop

One-Hop —> Multi Hop
多次提取充足信息
语义抽象化
句子Attention的layer推进
TimeStep状态推进，与主序列维度一致

Pointer network

从输入序列中找到相应的 tokens 来作为输出，其利用 Attention 作为 pointer，从输入序列中选择一个位置，并将这个位置所指向的词作为输出。
机器阅读理解学习笔记03

二.R-net

R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS （Microsoft Research Asia）
Attention计算中加入门机制

整体架构

机器阅读理解学习笔记03

QUESTION AND PASSAGE ENCODER

编码层
使用GRU替代LSTM

GATED ATTENTION-BASED RECURRENT NETWORKS

交互层

SELF-MATCHING ATTENTION

交互层

OUTPUT LAYER

输出层

总结

改进了RNN在机器阅读理解中的应用
将注意力机制融入RNN
门控循环神经网络

论文：https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf

三.FusionNet

FUSIONNET: FUSING VIA FULLY-AWARE ATTENTION WITH APPLICATION TO
MACHINE COMPREHENSION（Microsoft Business AI and Research, National
Taiwan University）
贡献：
单词历史
全关注注意力

架构

输入向量
集成组件
融合过程

融合过程

(1)词级融合：单词是否出现
(2)高层融合：更新高层次表示
(2’)高层融合（可选择的）：高层次融合到上下文单词
(3)自我加强融合：上下文高层次表示本身self-attention
(3’) 自我加强融合（可选择的）：融合前进行自我融合

单词历史（History-of-word）

一个单词从低层次到高层次所有表示向量一起称做这个词的history。
方法：将所有层拼接
可以更好理解语义
降低效率

全关注注意力

机器阅读理解学习笔记03

编码层

Glove:300
CoVe:600
POS:12
NER:8
Other:2

交互层

单词注意力层
阅读层
问题理解层
全关注互注意力层
全关注自注意力层

交互层架构

机器阅读理解学习笔记03

输出层

机器阅读理解学习笔记03
论文：https://arxiv.org/pdf/1711.07341.pdf

四.QA-Net

QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION（Carnegie Mellon University, Google Brain）
RNN训练较慢
CNN+Self-Attention
3-13倍的训练增速以及4-9倍的推断增速（准确不下降）
采用神经机器翻译模型生成的返译数据来实现数据扩增

整体架构

机器阅读理解学习笔记03

Input Embedding Layer

Word embedding & Character embedding
300 GLOVE embedding(OOV : 随机)
200 Character embedding
基于 Bi-DAF
采用两层 Highway Network
Character_max_len = 16

Embedding Encoder Layer

[convolution-layer × # + self-attention-layer + feed-forward-layer]
Layer-Norm & Batch-Norm
Depthwise separable convolution（记忆效果好，泛化能力强） size=7 d=128 num=4
Multi-head Attention, a=8
输出d=128
卷积示例：

Context-Query Attention Layer

机器阅读理解学习笔记03

Model Encoder Layer

与 Embedding Encoder Layer 一致
Depthwise separable convolution：num=2
权值共享

Output layer

机器阅读理解学习笔记03

数据增强

Positional Encoding
机器阅读理解学习笔记03

总结

Bert前的后期佳作
使用了很多bert相关的特性
炫技比较复杂

论文：https://openreview.net/pdf?id=B14TlG-RW

MRC框架：https://github.com/sogou/SogouMRCToolkit

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode