1.对原始数据的清洗方式:to,cc,bcc这些字段中可以有多个用户,用户之间用分号隔开,将数据拆分出来。即,每一个收件人,就有一条数据。并且把to,cc,bcc也区分开来。
图的名称:邮件收发关系柱状图。
类型:原生的多组柱状图。
数据来源:邮件的发送地址和邮件的接收地址,内部邮件。内部员工列表。
可分析的内容:
1.横轴是全部的内部员工,纵轴是邮件的数量。
2.蓝色是发送邮件的数目,黄色是接受邮件的数目。
得到的结果:发送邮件数量最多的前三名和接收邮件最多的前三名。
优点:可以清楚的看到各员工收发邮件的数量对比,以及从中得到活动频率高的员工。
缺点:不能看到收发邮件的员工之间的联系。并且信息量较少。
图的名称:接发邮件的主题关联图
图的类型:自己定义的线图(其实我也数不清楚到底是什么图)
数据来源:收发邮件数量分别居于前三的员工名单,他们收发邮件的数量,邮件主题。
可分析的内容:1.左边是sender,右边是 receiver。中间是sucject。
2.左右两边的数字代表邮件的频率。
3.线的颜色:用来区别不同员工。
优点:确实能够得到每个人邮件中的主题多线的频率,来判断他的工作内容
缺点:线的颜色选择过于随意,没有什么标准,而且线太多,很难定量分析。而且他没有考虑到员工职位变化的可能,而且这种分析方法不一定有效果(因为我还没有验证过)。
改天:应该先对邮件类型进行总结,拿到发出最有可能是重要人员所发出的邮件类型,通过它来得到重要员工(比如邮件首发量和接收到的会议邮件的数量),总得来说,就是选取的基础数据有问题。
就算按照这种方法分析,也应该要按照时间分析一下员工的邮件主题,因为各个阶段,公司的重要员工可能不太一样,还有员工职位的变化,所以应该按照时间分段来得到重要的员工。
名称:员工邮件的发送时间图
类型:
数据来源:员工名单,员工邮件。
可分析内容:1.横轴是0-23小时(为24个小时的时段)。
2.纵轴是员工名单。
2.圆的颜色么有什么特殊意义,只是为了区分开来。
3.圆的大小代表该员工在这个时段内发送邮件的多少。
结果:可以得到每个员工在一天之内的活跃程度,以此推断该员工的职务和工作时间。
优点:可以比较直观的看到一个员工在一天之内的活跃情况。
缺点:圈的大小比较并不容易,而且很难定量分析。
名称:邮件收发的数量分布图
类型:热力图
数据来源:员工邮件,员工名单,员工邮件的收发地址。
可分析的内容:1.横轴和纵轴都是员工。
2.点的颜色深度代表这两个员工之间的邮件往来程度。
结果:可以通过调整阈值得来几个邮件往来频繁的员工。
优点:统计的数据多,比较灵活,得到数据的数量可以自己控制。可以比较清楚的看到邮件收发的分布情况。而且可以很好的剔除那些不太活跃的边缘数据。
缺点:得到的结果不够直观,需要调整阈值才能得到有效数据。无法进行量化分析。而且所分析的不一定是所有的员工
名称:用户邮件收发的力导向图。
类型:力导向图
数据来源:用户收发邮件的地址,用户邮件数量
可分析的内容:1.点代表邮件的收发地址。
2.线:代表一次邮件往来
3.圈的位置:毫无意义。
结果:得到员工收发邮件的网络拓扑图。
优点:可以较好的反映员工之间的通信频率情况。
缺点:线太多,不容易进行分析。如果有密集恐惧症,那就基本上告别这个图了。而且人员这么多,也很难得到准确的几个人。
图的名称:柱状图
数据来源:得到的邮件主题列表,主题出现的次数
可分析数据:A.纵轴:邮件主题
B.柱表的长短:代表邮件的数量
优点:很清晰的对各个主题出现的次数进行对比。
缺点:对数据分析得到的结果比较单一。但是不能对主题进行阶段性分析。而且主题到底是不是那一阶段的业务特点。
图的名称:热力图
数据来源:邮件的物种分类:告警邮件(黄色),群发邮件(绿色),会议邮件(红色),差旅邮件(紫色),广告邮件(蓝色)。
可分析的数据来源:1.告警邮件(黄色),2.群发邮件(绿色),3.会议邮件(红色),4.差旅邮件(紫色),5.广告邮件(蓝色)。
颜色的范围大小:代表了该类型邮件的数量。
颜色所处的位置:没有意义
优点:将邮件的类型分的很清楚。可以清楚的看到每种类型的邮件在所有项目中所占的比重
缺点:当分类的邮件类型较多时,得到的结果就不清晰了。
图的名称:LDA模型
数据来源:每个主题出现的频率,主题列表。关键词
可分析数据:A.外圈的大小:代表主题出现的频率。
B.白色圆圈的大小:代表关键词在主题里的频率。
c.白色圆圈的多少:代表关键词的多少。
优点:
缺点:并不能很清楚的看到主题的比较结果,而且关键词的多少也并不能说明关键词的作用。
数据来源:邮件中的主题列表,邮件总数,邮件主题。
可分析数据:1.横轴:主题列表
2.纵轴:各种主题的数量
点:关键词
优点:可以看到详尽的每个主题在不同年限的频率和延长时间的变化。
缺点:点太多,也小,不容易分析,而且结果也不够直观。
图的名称:主题持续时间表
数据来源:主题的持续时间,主题的列表
可分析数据:
A.横轴:时间轴
B.纵轴:主题列表
C.颜色:没有意义,仅仅用来区分不同主题。
优点:可以清楚的看到一个主题的起止时间,以此来判断该主题在某一段时间内是不是公司的业务。
缺点:并不能看到主题在某一年或者某一阶段的出现频率和普及度,因此无法判断该公司在某一段时期内的主营业务和该公司处于那个阶段。
图的名称:矩阵图
数据来源:年份,主题列表,每个主题在不同年份出现的频度。
可分析数据:
1.纵轴:年份
2.横轴:主题列表
3.方块的颜色深度:从紫到红代表出现的数量的多少。
优势:可以看到不同的主题在不同年份的出现频率的比较,得到公司的业务的发展趋势。
缺点:得到的主题列表可能并不是全部的主题。
总体分析:数据分析的统计图选择很准确,但是标准的确定并不清晰,准确。我个人很喜欢最后那个图,很全面,数据选取也很好的一个图。
PS:由于经验不足,所以很多东西都也得不准确,也有很多遗漏,在后面的时间里,我会陆续再去修补。
这篇文章没有使用Markdown编辑器,所以逼格看起来不够高。