此总结所使用的文章来源为重庆大学的获奖论文。

首先我们看一下挑战赛一的题目描述:

  HighTech是一家互联网高科技公司,有几百名员工,分属财务、人力资源和研发三个部门。公司正在全力研发一款重量级新产品,近期该产品临近发布,公司对内部发生的一切异常现象都非常敏感。为了维护公司的核心利益,确保新产品顺利发布,公司高层决定临时成立内部威胁情报分析小组,该小组将根据公司内部采集到的数据,分析并处置可能存在的各种安全威胁。在分析威胁情报过程中,数据的复杂性需要计算智能处理,但发现和处置安全威胁需要人的经验、认知和判断,可视分析技术能将计算智能与人类智慧紧密结合,是威胁情报人员高效分析和理解威胁情报数据的利器。假设您是威胁情报分析小组的成员,请您设计并实现一套可视分析解决方案,帮助该公司及时准确地找出可能存在的内部威胁情报。

然后再看给的数据,按日期一共给了一个月的数据。每日的数据内有5个csv文件,分别为checking.csv、email.csv、login.csv、tcplog.csv、weblog.csv。每个csv的数据内容按照文件名能了解是属于那个方面的数据,具体数据内容后面根据题目来分析。

接着看问题一:

挑战 1.1:分析公司内部员工所属部门及各部门人员组织结构,给出公司员工的组织结构图。 

对数据集进行初步审查后,认为分析Hightech公司内部员工所属部门和人员组织结构,应当以email日志的主题分类为切入点。

(1)对数据进行预筛选和处理

首先,因为是分析公司内部员工的问题,所以需要对邮件中的无相关人员的邮件进行丢弃。所以第一步先筛选出hightech.com的内部用户。然后将email的subject绘制成词云(剔除了占比过大的“ALARM”,“RECOVER”,“互联网资产监控报 警”,“安全邮件崩溃”等公共邮件主题)。根据词云,可以先筛除垃圾邮件。

(2)邮件主题分类

根据题设,公司内部有三大部门。重庆大学预定义了人力、财务、技术这三个部门对 subject 进行初步分类。 其次,从收件人的角度建立分类的对应关键词表。我们采用 jieba 分词切分 subject 并与关键词表相匹配,得到每条 email 日志所对应的部门分类,为内部邮箱的收件地址打上部门大类的标签。 

(3)信息可视化和可视分析方法

根据上一步的通过大类标签提取数据,可以绘制出力导向图。用颜色区分部分,所有外部邮件视为一个外部节点。

Chinavis2018挑战赛1获奖论文总结(1)

(4)分析结果

绘制出力导向图后,查看各个节点的邮箱大致与分类职责相匹配,即可验证标签分类正确。

在图 (d)中,除了中间的外部节点外,研发部的节点分布表现为大致独立的小聚落。这些聚落可以被视为研发部的最基本开发小组。各小组相对独立,但又相互关联。除了代表外部和公共邮箱的节点外,各小组还与一个核心节点(1007/1059/1068)相连。对于小组来说,这种关联是 1:1 的,对于核心节点来说,则 是 1:N 的。因此,小组可以借由核心节点划分为三个大组。自然的,核心节点是各大组的组长。 
注意到,包含有 1143 的节点聚落不与以上三个节点产生交流,因此归为第四组。 
进一步观察发现,在三个大组中,每一个小聚落与关键节点通讯的只有一个桥节点。追踪这些桥节点与关键节点进行通讯的邮件主题,多包含:周报、月报、总结、计划等关键词。由此,可以将桥节点确定为各小组的组长。 
根据类似的关键词,确定 1143 为其小组的组长,1013 为人力部的部长,1041 为财务部部长。

(5)补充

通过对checking.csv考勤日志绘制平均值上下班时间散点图,发现存在异常点,而根据上面的分析判断,大多数组长都在这一异常节点集内。但有离群点 1067 未被显示于三个部门的力导向图中。只在“其他”类的力导向图中出现。

观察 1067 的上下班时间和邮件主题,发现他由于上下班时间异常而常常收到“旷工”的系统邮件,但并 未对此有所反应。1067 还经常收到外部邮箱关于“合作、介绍”的邮件。同时,观察 1067 与各部长(1013/1041/1059/1068)的往来邮件,发现 1067 发送的邮件主题多为“年度计划、公司发展规划”等,收到的多为“项目总结、月报总结”等。因此,推断 1067 是整个公司的领导。

(6)总结

通过上述的分析和实践过程,我们最终绘制出表示公司人员组织结构的环状树图。

Chinavis2018挑战赛1获奖论文总结(1)

个人总结:先要对数据进行初步的筛选,去除不需要的数据。对筛选后的数据,针对自己感兴趣的部分进行关键词提取、筛选、分类。再选择合适的可视化方法进行可视化,再进行进一步分析。

挑战 1.2:分析该公司员工的日常工作行为,按部门总结并展示员工的正常工作模式。 

(1)问题分析

针对问题希望从全局的角度来阐述用户行为。而行为模式,又常常与时间有极大的关 联关系,因而,可视化结果设计的关键集中在如何从统计的角度展示各 id 的活动随时间的变化上。

(2)解决方案

 根据checking、login、web等日志的数据。重庆大学设计了工作模式可视分析方案。主要以以下视图构成:

1.旭日图

用于显示公司员工组织结构。

2.平行坐标图

视图有 id、day、checkin、checkout 四个维度,分别表示被选中的 id、打卡日期、打卡上班具体时 间、打卡下班具体时间。图形会随着旭日图中 id 选取情况的变化而变化,同时各个维度轴上也有刷子用于 选择轴上的某一区域,当用刷子选择时,未被选中的部分会被淡化处理。 

3.散点图

用于显示用户行为在时间上的分布情况。包含刷子功能。

视图包含三个选项卡“打卡时间”、“网络日志”、“登录日志”:

 “打卡时间”:显示 11 月内 checking 的变化。分为上下班两个部分,纵轴为时间段,横轴为日期。可与左 边平行坐标图结合,分析上下班趋势。 


“网络日志”:显示为针对 weblog 的交互热力散点图。在散点上加入颜色变化表示与每个节点上活动的 id 数量。横轴为各 id 所访问的网站类型,共 18 个类。纵轴的时间显示方式上提供两个模式:在 Mo 模式 下,纵轴为 11 月的 30 天的顺序排布;在 Day 模式下,纵轴为 11 月整月每天的各个时间点的登录情况, 相当于将 30 天进行一个纵向的压缩,如图 2.2(a)。 


“登录日志”:显示为针对 Login 的交互热力散点图。图形分为左边的 login 成功和右边的失败两个部分,横 轴为 7 个 login 协议类型。时间显示上同样包含 Mo 和 Day 模式可供选择。

(3)分析

1.上下班时间

根据查看分析上下班打卡时间三点分布图,可以大致了解该公司员工的上下班时间。下面为重庆大学分析获得的上下班时间分布图:

Chinavis2018挑战赛1获奖论文总结(1)

2.例会和午休

观察网络日志一天中各时段访问 ID 数散点分布,可以观察到各部门在常用网站的访问上有两个明显 的不连续的缺口,对比各部门缺口时间可以观察到,12:30 到 13:30 的时间缺口为各部门所共 有,结合时间段的特殊性,推测此时间段为公司午休时间。再根据邮件主题词,可以推测出例会或类似的部门活动。归纳如下表:

Chinavis2018挑战赛1获奖论文总结(1)

3.财务月末加班

观察财务部打卡情况,可以发现,财务部在 11 月 25、26 日,即周六周日上班情况和前几周周末相比 有明显差异,上班人数几乎全勤。同时,财务部的这 2 天的 weblog 访问情况和正常工作时相 似。结合时间接近月末及财务工作的特点,推断其在加班忙于月末财务总结。 

4.login 日志特性 

 Login 日志仅记录了研发部员工的登录行为。

5.网站访问情况

内网、娱乐、生 活、银行、其他(含淘宝和搜索引擎)类在各个部门都非常受欢迎。只被研发部所访问的网站包括:偏向 技术类的网站,招聘类网站(财务部的 1248 例外)、Nan 类(即地址为 10.7.133.x 的无域名网络)。 

6.邮件往来与分工

人事部主要负责招聘(岗位说明、签订合同、发布招聘信息、通知面试、发 offer)、考勤、绩效考 核、准假等。也会适当地组织一些公司获得(比如打球)。 
财务部主要负责分析和核算各项收支、税务,管理钱财流动。 
技术部的邮件往来囊括了项目开发的整个流程,从确定需求开始,到维护为止。当然,他们还要负者 对公司的网络进行管理和维护。技术部的工作特点,在 weblog 网站访问情况中也有体现。 

个人总结:这块工作主要是要将数据进行一些提取组合,以做成自己想要的样子。对可视化的方法也需要有一定的熟练度,知道什么样的数据通过什么可视方法能达到最好的效果,可视方法要有一定的自定义度,可供用户进行筛选分析。最后通过可视图表的基础上进行人工进一步分析总结。

问题3在下一篇文章总结。

相关文章: