根据文本内容建议指南文章列表答案

【问题标题】：suggest list of how-to articles based on text content根据文本内容建议指南文章列表
【发布时间】：2017-06-21 13:27:14
【问题描述】：

我的客户和我的支持人员之间有 20,000 条消息（电子邮件和实时聊天的组合）。我也有我的产品的知识库。

通常，客户提出的问题非常简单，我的支持人员只需将他们指向正确的知识库文章即可。

为了节省我的支持人员的时间，我想做的是向我的员工展示一份可能与初始用户的支持请求相关的文章列表。这样他们就可以复制并粘贴帮助文章的链接，而不是加载知识库并手动搜索文章。

我想知道我应该研究什么解决方案。

我目前的思路是对现有数据进行分析并使用文本分类方法：

对于每条消息，查看是否有包含操作文章链接的回复
如果是，请提取关键短语（微软认知服务）
TF-IDF?
将每个操作方法视为属于关键短语集的“分类”
使用一些有监督的机器学习，支持向量机可能会预测哪个“分类，又名操作文章”属于根据新支持票确定的关键短语。
将新的响应反馈回集合中，使系统更智能。

不确定我是否把事情复杂化了。任何有关如何完成此操作的建议将不胜感激。

PS：仅仅将“关键短语”转储到我们知识库的搜索查询中的幼稚方法产生的结果很差，因为帮助文章的内容通常与人们在电子邮件或实时聊天中表达问题的方式不同。

【问题讨论】：

这是我刚刚获得的机器学习理论的一个有趣的应用！

标签： search machine-learning text-classification microsoft-cognitive

【解决方案1】：

类似于“垃圾邮件”分类器的简单分类器可能会起作用，但每个常见问题解答都是一个特征，而不是垃圾邮件而非垃圾邮件的单个特征分类器。

大多数垃圾邮件分类器都是从单词/短语字典开始的。你已经用你天真的方法开始了这件事。但是，与您的方法不同，垃圾邮件分类器的功能远不止文本搜索。本质上，在垃圾邮件分类器中，客户电子邮件中的每个单词都被赋予了一个权重，权重的总和表明该邮件是垃圾邮件还是非垃圾邮件。现在，将其扩展到与常见问题解答一样多的功能。也就是诸如：FAQ1 or not-FAQ1，FAQ2 or not-FAQ2等功能。

由于您的支持人员可以轻松确定电子邮件需要哪些常见问题解答，因此使用监督学习算法是合适的。为了减少任何错误分类错误的影响，请考虑应用程序向支持人员提供客户的电子邮件，然后是计算机生成的响应，支持人员所要做的就是批准或修改响应。修改响应应该会在训练集中产生一个新条目。

支持向量机是实现机器学习的一种方法。但是，您可能在首先确定问题并在使用更复杂的方法之前尽可能地使用简单的方法的过程中建议这种解决方案的方式为时过早。毕竟，如果多功能垃圾邮件分类器有效，为什么还要在其他也有效的东西上投入更多时间和金钱？

最后，根据您的系统，这是我想要解决的问题。

【讨论】：