首先,先对数据进行清洗,根据以下两个标准:
1.一张账户多次使用hackingteam的域名进行收发邮件。
2.若某个账户发送邮件数为0并且收发邮件数量小于500,则认为该员工为无效员工。
数据可视分析挑战赛-挑战二田甜作品分析
名称:Hacking team 人员关联关系拓扑图
类型:关联关系拓扑图
制作软件:Gephi
数据来源:经过数据清洗之后获得的员工名单以及他们之间的邮件往来
可分析数据:
A.点:代表有效的内部员工。
B.点的大小:代表该员工收发邮件数量的多少
C.线:代表员工之间的邮件往来
优点:将所有员工之间的邮件往来表现出来,并借此得到了邮件往来中比较重要的员工名单。
缺点:表示员工的点的颜色选取不太好,和线的颜色过于相似,对于可视化来说,表现不够清晰,而且拓扑图也被成为“毛线团”,对于普通用户来说这个图用来展示确实不太直观。
下面是她对公司员工的分类,采取了两种分类标准:
1.员在公司中的重要程度
2.该员工在公司中负责的业务
数据可视分析挑战赛-挑战二田甜作品分析
 
名称:人员重要程度可视化展示
类型:列状散点图
数据来源:有效成员列表,邮件往来情况以及邮件分类
可分析数据:
A.点:该员工的邮箱中某种类型邮件的数量占比。
B.表头:邮件分类和成员名单
优点:选取的判定员工重要程度的标准很有说服力,也就是说我窃以为这几个数据很大程度上能表明一个员工在公司内部的重要程度。就可视化方案的表现力来说,这个图的选取也是很直观的能表现员工的重要程度。并且鼠标放到点上,还会显示该点所占的比重。
缺点:其实我们可以知道员工的入职时间跟他在公司的重要程度没有什么联系,因为我们在图中可以看到,几乎所有入职时间较早的员工与其他三个标准所变现出来的趋势没有什么关系。
改进:她应该再加一个维度-邮件的首发量,这样的对于判断员工的重要程度会更加具有说服力。还有就是根据他在途中的分析结果。
PS:我相信她也发现了这个问题,但是不知道为什么没有去改变。
数据可视分析挑战赛-挑战二田甜作品分析
PS:很尴尬,她使用了三个图来说明这个问题,但是并没有对图进行单独的说明,可能她觉得三个图放在一起才能清楚的说明结果,单独放出来并没有好的效果。但是接下来我仍然会对三个图进行单独的分析,最后将他们放在一起进行说明。
数据可视分析挑战赛-挑战二田甜作品分析
名称:工作时间规律
类型:环装散点图
数据来源:员工每一天发邮件的时间,不同年份的发邮件的时间。
可分析数据:
A.直线:表示年份,从2012年到2015年
B.环形:代表24小时
优点:根据这张图,我们可以很直观的看到每个员工工作时间和每一年他们工作时间的变化规律,我们可以发现,员工的工作时间是比较固定的,往往在几年内不会有什么大的变化。
缺点:我们可发现不同员工的发邮件数量是有很大差异的,我们可以通过对不同员工收发邮件数量的对比得到公司中核心的员工,比如处于CEO,GTO之类的职位的员工。所以这个图只进行了纵向的对比,不能进行横向的对比,而且这张图跟她之后的分析没有什么关系,并且所展示出来的结果也没有进行很好的利用。
数据可视分析挑战赛-挑战二田甜作品分析
名称:客户来往趋势图
类型:河流图
数据来源:员工在不同时间段与外部邮件往来的统计
可分析数据:
A.横轴:年份
B.纵轴:发邮件的数量
C.点:重要员工名单
优点:我们可以看到员工所负责的工作类型的变化趋势和所占数量。
缺点:这张图表现的很详细,但是也是因为详细,所以很难直观的看到一些结论。她所选取的判断标准为:与该员工联系最频繁的公司来为该员工分类。但我任务这样分类可能一部分真正重要的员工是不属于任何一个分类的。以为如果真的是公司高层,往往都不会直接去与业务合作伙伴用邮件练练,而是会通过公司渠道与对方取得联系,所以这个判断标准不敢苟同。
改进:选取该员工发送邮件中的主题来作为河流图的分析数据。这样才能更准确的得到该员工负责的业务。
数据可视分析挑战赛-挑战二田甜作品分析
名称:业务与人员关联图
类型:概念图
数据来源:公司内部邮件往来
可分析数据:
A.中间矩形框:该公司所涉及的业务
B.外圈字母:员工姓名
C.线:该员工与业务的关联
优点:我们清楚的看到该公司的业务分类,并且它对几乎所有员工与业务的关联情况进行了展示。
并且我们将光标移动到矩形框(员工姓名)都会高亮显示与之相关的员工(业务)。
缺点:展示很详细,但是当我们想查看负责某个业务的员工时,就会出现问题,结果变现的并不清晰。高亮并不能解决问题。
改进:最简单的方式就是当需要被高亮显示的时候线和员工名单都换另一种颜色,并将其他的非关联元素进行淡化处理。 如果技术允许的话(我并不清楚是不是可以)我们可以选择在光标移动到某个员工名字或者矩形框上时,显示一个员工或者业务列表,将他单独显示出来。或者我们可以使用矩阵图来对业务和员工的关联关系进行展示,当调整阈值时,我们就可以得到清楚的员工列表或业务列表,并且还可以过滤掉一部分关联性并不强的员工或者业务。
数据可视分析挑战赛-挑战二田甜作品分析
名称:非业务邮件类型图
类型:饼图(升级版)
数据来源:利用K-MEANS算法对邮件主题进行聚类
可分析数据:
A.色块:代表不同分类,色块越大,所占比例也越大。
B.环:同一级分类
C.中间区域:显示光标所处位置的色块的信息。
优点:它对所有的邮件类型进行了分类,并且对于不同邮件类型还进行了细分,让我们很全面的看到不同类型邮件在同一级中所占的比例。让我们能得到一些信息,中间白块区域显示高亮色块的信息也让我们更加清楚的了解到改色块的信息。
缺点:当我们需要得到各类型邮件相对于时间的变化时,他并不能提供任何帮助,对我们接下来的工作没有什么帮助,而且我们应该剔除掉其中占比非常小的分类,那些分类并不影响任何东西。
PS:但是我仍然认为这个图用来做分类是非常好的一个图,清晰,全面。
数据可视分析挑战赛-挑战二田甜作品分析
 
名称:历年人员,邮件数量趋势图
类型:河流图
数据来源:对邮件数量,涉及人员数量以及主题进行分析。
可分析数据:
A.横轴:时间轴
B.纵轴:数量
C.色区:代表不同国家
优点:清晰的看到各种标准的变化趋势,可以基本得到公司的几个重要转折点。
缺点:不能确定每个阶段的重要业务,得到关于某个阶段更多的信息。比如该公司在某一阶段的业务变化。
数据可视分析挑战赛-挑战二田甜作品分析
 
名称:客户,邮件数量趋势图
类型:折线图
数据来源:公司不同时间段收发邮件的数量以及客户的数量
可分析数据:
A.横轴:时间轴,以月为区段
B.纵轴:上段-客户数量,下段-邮件数量
C.线的颜色:蓝色代表客户数量;橙色代表邮件数量
优点:可以对邮件数量和客户的数量的变化趋势进行比对来得到一些结果,从而对上面的结果进行验证。
缺点:只能对上面的结果进行验证,没有别的作用。
改进:应该在贯标放到某一些关键的变化节点时,应当显示出在那个时间段公司的主营业务(也就是出现频率最高的主题)。
数据可视分析挑战赛-挑战二田甜作品分析
称:ht业务时间线
类型:标签云
数据来源:邮件中主题的统计
可分析数据:
A.单词:代表邮件中出现的主题
B.大小:表示该主题出现的数量维度,数量越大,字体越大。
C.线:时间线。
优点:可以很直观,很形象的看到某一时间点的出现频率较高的主题。
缺点:没有一个量化标准,比如多大能算是公司的主营业务,或者进入公司业务的范畴。在某一时间点能对业务进行比较,但不能对不同时间段业务的发展进行比较。并且我们并不能根据这个图找到该阶段新增业务。并不能完成题目要求。
数据可视分析挑战赛-挑战二田甜作品分析
名称:本阶段业务时间变化曲线
类型:折线图
数据来源:业务随时间的变化曲线
可分析数据:
A.颜色:代表不同的业务
B.气球:关于该业务的邮件
C.大小和高低:都是反映业务邮件数量的多少,数量越多,气球越高,越大。
数字:邮件的数量
优点:我们可以很清晰,直观的看到业务的变化趋势,这个图颜值也很高,很容易看懂。
缺点:我们无法对业务额发展趋势以及在某一阶段各个业务所占公司经营的比重进行分析,同时它也固定了一些业务,我们没办法判断到底是哪个阶段新增了那个业务。两个图都没能解决这个问题。


相关文章: