【论文笔记】A model of coherence based on Distributed Sentence Representation

基于连贯性任务的句子向量表示

这篇文章想找出一种高效的句子的向量表示
使用了文章连贯性的任务来训练
对比了两种句子向量表示
Recurrent Sentence Representation: 就是正常的循环神经网络，使用最后一个隐含层的状态
- $h_t = f(V_{recurrent} h_{t-1} + W_{recurrent} e_{w}^t + b_{recurrent})$ ，RNN的表达式
Recursive Sentence Representation: 递归句子表示，先将句子解析成语法树，那么根节点的向量表示作为句子的向量（根节点向量=f(左节点，右节点)）
- $h_p = f(W_{recursive} [h_{left}, h_{right}] + b_{recursive})$

Coherence Model(连贯性模型)

【论文笔记】A model of coherence based on Distributed Sentence Representation

句子集合(一个window，可以理解为卷积的window) $C$ ，标签 $y_c$ 如果连贯为1，不连贯0
将句子向量拼接起来： $h_C = [h_{s1}, h_{s2},...,h_{sL}]$ ，其中 $L$ 表示集合 $C$ 当中的句子个数
输入到隐含层： $q_C = tanh(W_{sen} h_C + b_{sen})$
最后预测是否连贯： $p(y_C=1) = sigmod(U q_C + b)$
损失函数，就是分类交叉熵损失： $J(\theta) = \frac{1}{M} \sum_{C \in trainset} \{ -y_C log[p(y_C=1)] - (1-y_C) log[1-p(y_C=1)] \} + \frac{Q}{2M} \sum \theta^2$

文档的连贯性评分

$S_d$ : 文档的连贯性评分， $d$ 代表一个文档， $d = \{ s_1, s_2,..., s_{N_d} \}$ ， $N_d$ : 表示 $d$ 文档有多少个句子
如果window size为3，那么一个文档可以生成系列的cliques: $<s_{start}, s_1, s_2>, <s_1, s_2, s_3>,...,<s_{N_{d-1}}, s_{N_d}, s_{end}>$
文档连贯性评分： $S_d = \prod_{C \in d} p(y_C=1)$

一些结论

语法解树生成的句子向量要比RNN生成的句子向量要好

一些想法

这里做的是句子的连贯性评分，词的特征是体现字句子向量当中，不能评判句子是否好坏
损失函数也是评价的句子之间的连贯性
直观上来讲如果句子差，连贯性也应该是比较差的
考虑一个问题，单独只做连贯性评分是否有意义呢？有什么办法可以欺骗连贯性评分呢？

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode