An Information Retrieval Approach to Short Text Conversation

引言

Hang Li 等发在2014年arxiv上的文章，原文地址：https://arxiv.org/pdf/1408.6988.pdf
基于新浪微博的数据集做的短文本单轮QA，从论文名可以看到，这是基于检索的方式做的，作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs，之后对待定数据做人工标注，再对candidate pairs进行特征提取，最终用LTR的方式进行排序。

数据集

数据集是从新浪微博爬取的微博及其下的评论构成(p, r)这样的pairs，选区的是一些中国搞NLP的高级知识分子的微博，相对来说posts的质量较高。
An Information Retrieval Approach to Short Text Conversation

Sampling Strategy

确定10个在sina微博上活跃的NLP大牛，然后爬他们的followee，得到3200多个NLPer/MLer作为种子。
之后基于上述种子爬了两个月，抓取他们的微博及相关评论。统计出来数据的topic主要为：Research、General Arts and Science、IT Technology、Life等

Processing, Filtering, and Data Cleaning

接下来对数据进行清洗，主要有以下几个策略：
1、去除post小于10个字符，及response小于5个字符的，还有一些万金油式的" Wow"或者“Nice”之类的语句。
2、只保留每个post前100个response，因为在时序上，前面的response会和post联系更紧密些。
3、去除一些可能是广告的response。
4、去除标点符号和表情，同时分词。

Labeled Post-Comment Pairs

对上述的pairs，用三个基础的检索模型进行召回，每个召回10条，所以总共有<=30个pairs，之后对这个candidate pairs进行人工标注，策略如下：
1、Semantic Relevance
在语义上，post和response必须是相关的，如：
An Information Retrieval Approach to Short Text Conversation
2、Logic Consistency
在逻辑上，必须无误的，比如：

3、Speech Act Agreement
同时，response和post主题之间的切合度也很重要，如：

根据上述3种策略，对pairs进行标注，最终得到的数据集如下：
An Information Retrieval Approach to Short Text Conversation
需要注意的是，label pairs里面是不包含原本的response的，因为时靠检索寻找到的待定pairs。

模型

上面说道，整体模型分为三个部分，Retrieval，Match，Rank如下：
An Information Retrieval Approach to Short Text Conversation

Retrieval

检索部分即使上面构造candidate pairs的方法，作者用了以下方式：

Query-Response Similarity

Query和Response之间的consine相似度，如下：
An Information Retrieval Approach to Short Text Conversation

Query-Post Similarity

Query和Post之间的consine相似度，如下：
An Information Retrieval Approach to Short Text Conversation

Query-Response Matching in Latent Space

将Query和Response的表示降维，再计算相似度，作者提到这样的方法能够得到更多的语义信息：
An Information Retrieval Approach to Short Text Conversation

Match

召回待定的pairs后，再根据多种方式抽取其特征，其中前三种为上述Retrieval得到的相似度

Translation-based Language Model

为了解决lexical gap，即是两个句子之间相似的词很少但是语义比较接近的情况，提出的基于翻译模型的特征，
An Information Retrieval Approach to Short Text Conversation
具体的推导及训练方式在原论文中有详细描述。

Deep Matching Model

上面提到的方法都是线性模型，这里提出了Deep Match Model用来提取非线性特征：
An Information Retrieval Approach to Short Text Conversation

Topic-Word Model

Topic-Word Model提到了，可能句子之间相似的词很少，但是在有先验知识的情况下，是更加符合post的response，如：
An Information Retrieval Approach to Short Text Conversation
所以这里提出了Topic-Word Model用来获取主题相关的信息。