句子语义相似性探索

纯属个人理解，有什么问题，欢迎指正，一起谈论。

应用和困难：

求解句子（短文本）相似在现实场景中有很多的应用，如信息检索方面；新闻推荐方面，根据用户浏览的新闻标题，推荐相似标题的新闻，或者其它方面的推荐；智能客服，根据用户输入的问题，自动为用户寻找相似的问题或者答案等。但计算句子相似性面临很大的挑战，使用有监督方法，中文语料非常少。至于无监督方法，不能像word2vector那样，没有一个理想的方法去建模句向量。其次，不好定义similarity，到底是评估两句话表达一个meaning，还是说的表达的topic一致。

方法探索：

求句子相似性，一般将句子表示成句向量，然后用cos值或者欧式等距离来评估两个句子的相似性。所以主要核心问题还是怎样将一个句子表示成具有语义信息的句向量。基本上分两个大方面。

第一：直接学习句向量模型sentence modeling，由于有标签的语料很少，多数从无监督方法出发。实验过两篇论文方法，A Hierarchical NeuralAutoencoder for Paragraphs and Documents以及Skip-Thought Vectors。两篇papers基本思路都是通过一个LSTM做encode对句子进行编码，得到句向量，然后用一个LSTM做为decode，对句子向量进行解码，不同在于softmax分类层，前一篇paper是解码自身的每个词，

后一篇paper是解码该句子上下文中句子的每个词。

都是End-to-End的学习方式，中间表示结果为句子向量。计算句子相似性的效果不理想。觉得主要原因在于，两种方法通过在解码阶段对句子中的每个词进行还原，还是从句子中词的Label训练模型，另一个原因是，模型构造没有从计算句子相似性目的出发，不像词向量的学习，相同上下文对应的中心词在语义上是相似的，两种方法仅是通过解码自身的句子或者上下文句子，所以学到的词向量不具有很好的语义信息。

第二：从词word level出发，通过组合句子中的词向量来表达句子向量。但是中文一词多用，所以相同的词不同组合构成的句子可能完全是两个不同的意思，这也导致了直接从word level出发，难免会存在问题。但是词向量的学习具有语义信息，用句子的词向量表达句向量，虽然存在缺陷，但目前来看，相对稳定些。

最简单的方法是，对句子中的词向量相加求平均，作为句子的句向量。可以作为一个baseline方法。后面有不少paper都是针对这baseline做的改进，因为句子中的每个词在句子中重要性是有差异的。有通过计算词频的tf-idf权重，也有自学习权重。

论文一：Sentence similarityMeasures for Fine-Grained Estimation of Topical Relevance in Learner Essays论文通过学习的方式，去学习每个词的权重。认为句向量u与相邻的句向量v在语义上更加相似，与它较远的句向量z语义不相似，其中的句向量也是通过词向量的加权和求得，通过最小化代价函数max(uz-uv, 0)，来优化每个词的权重。

论文二：A simple but tought-to-beat baseline for sentenceembeddings也是通过将句子中的词向量加权求和得到，其中每个词的权重为：weights = a / (a + p(w))，a是一个定值，p(w)是每个词在语料库中出现的概率值。得到句向量后，再pca。

论文三：From word Embeddings to Document Distances最小化两个句子中词向量的全局距离之后，用emd来计算两个句子的相似性。

样本测试案例：

论文一自学习权重方法(auto) ,论文二sif权重+pca方法（sif_pca）论文三emd方法（emd），平均词向量方法（aver）以及调用百度(baidu)求解句子相似性的测试效果

	如何学好深度学习	李彦宏是百度公司创始人	信号忽强忽弱
auto	深入学习习近平讲话材料 0.283	百度是李彦宏创办的 0.978	信号忽高忽低 0.864
	机器学习教程 0.798	马化腾创办了腾讯公司 0.908	信号忽左忽右 0.746
	人工智能教程 0.708	姚明是NBA的著名球星 0.207	信号忽然中断 0.321
sif-pca	深入学习习近平讲话材料 0.392	百度是李彦宏创办的 0.907	信号忽高忽低 0.948
	机器学习教程 0.708	马化腾创办了腾讯公司 0.835	信号忽左忽右 0.902
	人工智能教程 0.339	姚明是NBA的著名球星 0.198	信号忽然中断 0.385
emd	深入学习习近平讲话材料 0.394	百度是李彦宏创办的 0.891	信号忽高忽低 0.872
	机器学习教程 0.702	马化腾创办了腾讯公司 0.843	信号忽左忽右 0.833
	人工智能教程 0.278	姚明是NBA的著名球星 0.613	信号忽然中断 0.393
aver	深入学习习近平讲话材料 0.786	百度是李彦宏创办的 0.868	信号忽高忽低 0.870
	机器学习教程 0.808	马化腾创办了腾讯公司 0.856	信号忽左忽右 0.823
	人工智能教程 0.337	姚明是NBA的著名球星 0.707	信号忽然中断 0.716
baidu	深入学习习近平讲话材料 0.312	百度是李彦宏创办的 0.877	信号忽高忽低 0.949
	机器学习教程 0.608	马化腾创办了腾讯公司 0.682	信号忽左忽右 0.914
	人工智能教程 0.52	姚明是NBA的著名球星 0.320	信号忽然中断 0.695

	小儿腹泻偏方	大家都爱看喜剧	红米更新出错
auto	宝宝拉肚子偏方 0.744	很多人喜欢看幽默的电影 0.842	红米升级系统出错 0.921
	小儿感冒偏方 0.969	电影分很多类型 0.388	红米账户出错 0.751
	腹泻偏方 0.952	他是一个幽默的人 0.322	如何买到小米手机 0.723
sif-pca	宝宝拉肚子偏方 0.721	很多人喜欢看幽默的电影 0.842	红米升级系统出错 0.937
	小儿感冒偏方 0.939	电影分很多类型 0.370	红米账户出错 0.844
	腹泻偏方 0.964	他是一个幽默的人 0.791	如何买到小米手机 0.700
emd	宝宝拉肚子偏方 0.619	很多人喜欢看幽默的电影 0.378	红米升级系统出错 0.907
	小儿感冒偏方 0.917	电影分很多类型 0.221	红米账户出错 0.993
	腹泻偏方 0.916	他是一个幽默的人 0.266	如何买到小米手机 0.260
aver	宝宝拉肚子偏方 0.389	很多人喜欢看幽默的电影 0.892	红米升级系统出错 0.925
	小儿感冒偏方 0.937	电影分很多类型 0.744	红米账户出错 0.917
	腹泻偏方 0.965	他是一个幽默的人 0.819	如何买到小米手机 0.711
baidu	宝宝拉肚子偏方 0.90	很多人喜欢看幽默的电影 0.630	红米升级系统出错 0.90
	小儿感冒偏方 0.740	电影分很多类型 0.501	红米账户出错 0.778
	腹泻偏方 0.810	他是一个幽默的人 0.501	如何买到小米手机 0.263

总结：

对于短文本如query，基于从world level方面建模句向量虽然过于粗暴，但不是特别难理解的句子，基本还work

对于长句，在绝大部分词语相同时，整句话的意思也很有可能南辕北辙，基于词向量构建句向量，不能捕捉句子语法结构信息，利用词法分析，能够model到语法结构对句子相似度的影响或许可能改进效果。