阿里小蜜技术整理

阿里小蜜是电子商务领域的智能私人助理，基于阿里海量消费和商家数据，结合线上、线下的生活场景需求，以智能+人工的模式提供智能导购、服务、助理的拟人交互业务体验。

阿里小蜜整体体系图如下：

阿里小蜜技术整理

阿里小蜜平台结构图如下：

阿里小蜜技术整理

阿里小蜜技术整理

将对话系统从分成两层：

意图识别层：识别语言的真实意图，将意图进行分类并进行意图属性抽取。意图决定了后续的领域识别流程，因此意图层是一个结合上下文数据模型与领域数据模型不断对意图进行明确和推理的过程；
问答匹配层：对问题进行匹配识别及生成答案的过程。在阿里小蜜的对话体系中我们按照业务场景进行了3种典型问题类型的划分，并且依据3种类型会采用不同的匹配流程和方法：

a) 问答型：例如“密码忘记怎么办？”→ 采用基于知识图谱构建+检索模型匹配方式

b) 任务型：例如“我想订一张明天从杭州到北京的机票”→ 意图决策+slots filling的匹配方式

c) 语聊型：例如“我心情不好”→ 检索模型与Deep Learning相结合的方式

意图识别可看作是分类问题。

阿里小蜜采用如下要素进行意图识别，并通过深度学习方案构建模型

阿里小蜜技术整理

在分类预测模型上，有两种方案

阿里小蜜技术整理

目前主流的智能匹配技术分为如下4种方法：

阿里小蜜采用基于模板匹配，检索模型以及深度学习模型为基础的方法原型来进行分场景(问答型、任务型、语聊型)的会话系统构建。

知识图谱构建从以下两个角度抽象，通过在淘宝平台上积累的大量属于以及互联网数据，通过主题模型的方式进行挖掘、标注与清洗，再通过预设定好的关系进行实体之间关系的定义最终形成知识图谱。

阿里小蜜技术整理

优点：

缺点：

在线流程
1. 提问预处理：分词、指代消解、纠错等基本文本处理流程；
2. 检索召回：通过检索的方式在候选数据中召回可能的匹配候选数据；
3. 计算：通过Query结合上下文模型与候选数据进行计算，采用文本之间的距离计算方式(余弦相似度、编辑距离)以及分类模型相结合的方式进行计算；
4. 最终根据返回的候选集打分阈值进行最终的产品流程设计
离线流程
1. 知识数据的索引化；
2. 离线文本模型的构建：例如Term-Weight计算等；

如下图：

阿里小蜜技术整理