基于深度置信网络（DBN）构建威胁情报知识图谱

文章目录

威胁情报
架构设计

数据获取与处理
知识表示与推理

深度置信网络

组成
训练过程

逐层预训练
整体精调

实现流程

实体抽取
实体关系抽取
知识图谱可视化

参考文献

威胁情报

威胁情报是一种基于证据的知识，包括与威胁相关的上下文信息、威胁所使用的方法机制、威胁指标、攻击影响和应对建议等。威胁情报是对于资产当前或即将面临的威胁和风险的认知，并能够为针对威胁和风险作出的决策提供合理的建议。
威胁情报分析在针对定向网络攻击，尤其是APT攻击的追踪溯源过程中起着非常重要的作用。借助机器学习和深度学习中的相关技术及模型，可以构建起关于威胁情报的知识图谱，对威胁情报进行实体抽取和关系描绘，实现威胁情报的共享与可视化，帮助防御者追踪溯源。[1]

架构设计

数据获取与处理

数据获取部分是整个构建过程的基础，主要是通过人为或系统自主对发生过的各类网络攻击行为进行记录，将其作为初步的威胁情报进行收集。
数据处理部分主要是针对获取到的情报，根据其结构化或半结构化属性分别进行实体及实体关系的识别与抽取，这一过程需要借助深度学习模型（如DBN）作为分类器来实现。

知识表示与推理

知识表示部分主要是围绕威胁情报在这一领域内进行围绕有关主体概念之间关系的逻辑建模，比如威胁情报中经常涉及的攻击目标、攻击手段、攻击组织等。
知识推理部分由正向推理和反向推理两个模块组成。正向推理通过推测潜在关系来发现隐含知识，反向推理则借助图谱查询功能使已有情报内容更加精准化。

深度置信网络

组成

深度置信网络（DBN）是一种深层概率有向图模型，其结构由多层节点构成，其中，相邻层次的节点之间的网络为全连接形式，而每层节点之间的内部并无连接。最开始的两层节点之间为无向连接，而其他各层则为有向连接。[2]
从组成结构上可以将深度置信网络看作由n层受限玻尔兹曼机（RBN）和一层反向传播网络（BP）构成。这一模型在威胁情报知识图谱的构建过程中可以用于威胁情报的实体抽取过程。

训练过程

深度置信网络的训练过程通常分为逐层预训练和整体精调两个阶段。本次知识图谱构建过程所采用的DBN模型结构如下图所示：
基于深度置信网络（DBN）构建威胁情报知识图谱

逐层预训练

如模型图所示，自上而下每个 $V_i$ 和 $H_i$ 层构成一个小型的RBM网络，依此训练权重矩阵 $W_i$ ，直到到达最后一层之前，得到经过n层训练后的RBM特征向量 $W_{n-1}$ 。

整体精调

如模型图所示，最后一层作为输出层，设置BP网络来接收之前的RBM特征向量，通过计算得到代价函数值，向下传播并对每层的权重进行调整，以优化训练结果。

实现流程

(待补充完知识图谱相关知识后继续完善…)

实体抽取

实体关系抽取

知识图谱可视化

参考文献

[1] 王通,艾中良,张先国.基于深度学习的威胁情报知识图谱构建技术[J].计算机与现代化,2018(12):21-26.
[2] 邱锡鹏.神经网络与深度学习[M].北京：机械工业出版社.2020.