Unsupervised Deep Structured Semantic Models for Commonsense Reasoning
origin
2019 naacl
Shuohang Wang1∗ , Sheng Zhang2, Yelong Shen4, Xiaodong Liu3,
Jingjing Liu3, Jianfeng Gao3, Jing Jiang1
1Singapore Management University,
2Johns Hopkins University,
3Microsoft, 4Tencent AI Lab
motivation
常识推理是自然语言理解里非常关键的问题,在过去的研究中主要采用的是基于手写规则库的方法,由于人工成本巨大,目前缺乏标注数据或者手写规则库,本文期望通过从一些原始的文本中学习常识知识,本文提出深度结构语义模型(DSSM),模型在WSD和PDP(代词消歧)任务上达到SOAT。
为了更清楚的了解两个任务,这里举两个例子:
model
这里主要有两个模型 DSSM-1 和DSSM-2
首先介绍模型1
模型1基于假设:同一个句子中,代词指代的是它的先行词(本文里考虑的是在代词前边的名词)
数据集的构造:
- 解析句子,分析里边的实体名/代词/名词
- 从代词前边的一个单词作为分割线将一个句子分割成两个子句
- 保留第一个子句至少包含两个名词的句子
- 随机替换掉第二个子句作为负例
模型结构:
对两个子句分别进行编码,带有attention 机制的双向lstm模型:
表示的是第i个名词的隐藏层状态表示 计算attention
损失函数:
指代打分函数:
DSSM-II 模型:
DSSM-2主要是基于假设:
在同一个句子中,相同的性别或者复数形式更有可能指代同一个先行词相对于其他的代词
数据集构造:
1.解析句子识别代词
2. 选择至少包含两个代词的句子
3. 两个子序列中代词如果有相同的性别或者单复数形式,则标记为正例 否则标记为负例
4. 将相应的代词使用@Ponoun替代 因为考虑的是名词和代词之间的关系
模型:
指代打分函数:
experiment
使用上面训练的两个模型在PDP和WSC两个任务上做实验得到下面的结果
分析: