智能工单处理

天眼平台是中国联通IT研发中台体系中的生产运营支撑平台。保障3亿+用户集中生产系统稳定运行，为系统接维、系统生产、系统运营、运行维护、运行保障、运营管理六大领域全方位提供运维工具支撑。
智能工单处理是天眼运维研发团队基于自然语言处理技术和搜索引擎技术提升沃工单处理效率，提高支撑满意度的运维工具。
沃工单系统一个完整的工单生命周期如下图所示，包括工单产生、派送、处理、归档四个周期。智能工单处理主要用于工单处理环节：当在沃工单系统中录入问题后，将类似问题的解决方案推荐给处理人参考
1.1 粗排策略
粗排策略跟一般的搜索引擎非常类似，主要技术包括粗细粒度分词、词重要性计算、核心词识别、命名实体识别、语义归一等相关技术，主要是为了在粗排阶段尽可能地把相关问题进行召回。
1) 词重要性计算：通过计算重要性，表示问题的词汇权重越高，在召回时命中这些词汇的候选集越有可能被召回。如：“沃家庭和沃商务的主号码是什么?”，在这个问题中，“主号码;沃商务;沃家庭”是高权重的词，“什么”是较低权重的词；因此越符合“主号码;沃商务;沃家庭”的答案越有可能被召回。
2) 核心词识别：核心词就是候选集中必须相关的词。如“已验证的普票,提示付款信息不符,需更改销货单位名称”，核心词是“更改”、“销货单位名称”，如果候选集中没有这两个相关的词，如“更改金额”，“填写销货单位名称”，都是不符合问题需求的。
3) 命名实体识别：通过命名实体识别，能协助识别出问题答案中的核心词，也可以对核心专有名词进行重要性加权，辅助搜索引擎提升召回效果。
4) 语义归一：同一个问题可能有很多种问法，如“锁定工号如何解除”、“工号锁定处理方法”，实际上描述的是一个问题。通过语义归一处理可扩大召回。
1.2 精排策略
通过粗排，搜索引擎已经返回了一大批可能相关的结果，比如500个，如何从这500个问题中找到最符合问题的一个或者几个，非常考验算法精度。沃工单问题方案推荐系统会通过语义和深度学习的方法寻找最匹配的答案。
1) 基于句子相似度的算法
词向量有个有趣的特性，通过两个词向量的减法能够计算出两个词的差异，这些差异性可以应用到语义表达中。如：vec(Berlin) – vec(Germany) = vec(Paris) – vec(France)；通过这个特性能够用来计算句子的相似度。假设两个词xi, xj之间的距离为
智能工单处理
，这可以认为是xi转换到xj的代价。可以将句子用词袋模型

表示，模型中某个词i的权重为

，其中ci是词i在该句子中出现的次数。设置

为一个转换矩阵，Tij表示句子d中词i有多少权重转换成句子d’中的词j，如果要将句子d完全转换成句子d’，所花费的代价计算如下：
智能工单处理
如果用Xd表示句子中的词向量通过权重di进行加权平均的句向量，可以推导出，句子转换代价的下限是两个句向量的欧式距离。

一般这个下限表示两个短句子相似的程度已经足够了，如果需要通过完全最优化的方法计算
智能工单处理
的值，可以通过 EMD solver算法计算。
2) 基于深度学习计算问答匹配程度
基于句向量的距离计算句子相似度，可以cover大部分的case，但在句子表面相似，但含义完全不同的情况下就会出现一些问题，比如“我喜欢冰淇淋”和“我不喜欢冰淇淋”，分词为 “我”，“不”，“喜欢”，“冰淇淋”，两个句子的相似度是很高的，仅一字“不”字不同，导致两个句子意思完全相反。要处理这种情况，需要使用深度模型抓住句子的局部特征进行语义识别。
智能工单处理
如图所示，Q是用户的问题，D是返回的各个答案。对于某一个问答句子，首先将它映射到500k大小的BOW向量TermVector里。因为TermVector是稀疏矩阵，可以使用WordHashing或者其他Embedding的方法将其映射到30k大小的词向量空间里。接下来的l1, l2,l3层就是传统的MLP网络，通过神经网络得到query和document的语义向量。计算出（D，Q）的cosinesimilarity后，用softmax做归一化得到的概率值是整个模型的最终输出，该值作为监督信号进行有监督训练。模型通过挖掘搜索点击日志构造的query和对应的正负document样本（点击/不点击），输入DSSM进行训练。
3) 基于卷积神经网络计算问答匹配程度
句子中的每个词，单独来看有单独的某个意思，结合上下文时可能意思不同；比如“我买了一台苹果，很好用”和“我买了个苹果，很好吃”，这两句话里的“苹果”意思就完全不一样。通过基于卷积神经网络的隐语义模型，我们能够捕捉到这类上下文信息。
智能工单处理
如图所示，先通过滑窗构造出query或document中的一系列n-gramterms，比如图中是Word-n-gramlayer中的trigram；然后通过word-hashing或者embedding将trigramterms表示为90k的向量；通过卷积向量Convolutionmatrix Wc对每个letter-trigram向量作卷积，可以得到300维的卷积层Convolutionallayer；最后通过max-pooling取每个维度在Convolutionallayer中的最大值，作为文本的隐语义向量。模型也是通过挖掘搜索日志进行有监督训练。
通过卷积神经网络，能得到句子中最重要的信息。如下面一些句子，高亮的部分是卷积神经识别的核心词，它们是在300维的Max-pooling层向量里的5个最大神经元**值，回溯找到原始句子中的词组。
microsoft office excel could allow remote code execution
welcome to the apartment office
4) 基于主题模型计算问答匹配程度
短文本一般词语比较稀疏，如果直接通过共现词进行匹配，效果可能会不理想。有研究团队提出DeepMatch的神经网络语义匹配模型，通过（Q, A）语料训练LDA主题模型，得到其topicwords，这些主题词用来检测两个文本是否有语义相关。该模型还通过训练不同“分辨率”的主题模型，得到不同抽象层级的语义匹配（“分辨率”即指定topic个数，高分辨率模型的topicwords通常更加具体，低分辨率的topicwords通常更加抽象）。在高分辨率层级无共现关系的文本，可能在低分辨率存在更抽象的语义关联。DeepMatch模型借助主题模型反映词的共现关系，可以避免短文本词稀疏带来的问题，并且能得到不同的抽象层级的语义相关性。
智能工单处理
如图所示，绿色和紫色块分别表示在同一个分辨率下不同的主题在X和Y文本中命中的主题词块，与上一层分辨率（p-layerII）的主题的关联通过是否与上一层的主题词块有重叠得到。如此通过多层的主题，能够构建出神经网络，并使用有监督的方式对相关权重进行训练。
以上即是智能工单处理系统的粗排和精排所采用的基本策略。而在实际项目过程中，需考虑其他因素综合提升智能工单处理系统的效果。包括：

从工单附件信息中抽取出更多语义特征，包括图片类的附件，从而更好地表征工单问题。
构建效果评估机制，量化分析方案推荐的准确性和有效性。
构建工单标签分类体系，按照工单问题的标签和分类缩小粗排、精排范围，从而在一定时间内可支撑更复杂的召回排序运算。