BAG: Bi-directional Attention Entity Graph Convolutional Network for Multi-hop Reasoning Question Answering (NAACL-2019)阅读笔记
| 动机: | 从single-hop 到 multi-hop |
| 贡献: |
|
| 模型: | 1. Entity Graph Construction所有在文档集合中的candidate构成了entity graph的顶点,之后定义无向边基于节点对的位置属性。 1)跨文档边:定义在出现在不同文档中的相同entity之间 2)文档内部边:定义在同一文档的每个实体之间 2. Multi-level Features作者将node 和query 用多个层面的特征表示;具体地, node 的表示:给定一个node, 计算node 中所有tokens 的GloVe embedding的平均值,得到token-level 特征。再计算node 中所有tokens 的ELMO embeddings的平均值,得到context-level 特征。 再将这两个平均值用输入到1-layer linear network中进行编码融合,得到 反映token的语义属性。最终的node 表示为 query的表示:将query 用Bi-LSTM进行编码,得到 3.GCN Layer
【其实,这个地方我并没有看懂,作者并没有解释如何得到 4. Bi-directional Attention Between a Graph and a Query(1) 计算similarity matrix :
(2)计算node-to-query attention:
(3) 计算query-to-node attention: (4) 最终的输出:
5.Output layer经过全连接层的tanh**函数,最后通过一个softmax layer评估图中的每个节点是答案的概率,因为每个candidate可能会在图中多次出现(比如同一实体出现在不同文档中的时候),每个candidate的概率为所有对应node的和。 |
| 总结: | node 和 query 可以进行bi-attention 计算 此外,很多地方作者都没交代清楚,我是没看懂。。。。 |