R_Studio(学生成绩)对数据缺失值md.pattern()、异常值分析(箱线图)

　　我们发现这张Gary.csv表格存在学生成绩不完全的(五十三名学生，三名学生存在成绩不完整、共四个不完整成绩)

　　　　79号大学语文、高等数学

　　　　96号中国近代史纲要

　　　　65号大学体育

　　 R_Studio(学生成绩)对数据缺失值md.pattern()、异常值分析(箱线图)

（1）NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集进行函数操作的时候，该NA不会被直接剔除。如x<-c(1,2,3,NA,4)，取mean(x)，则结果为NA，如果想去除NA的影响，需要显式告知mean方法，如 mean(x,na.rm=T)；NA是没有自己的mode的，在vector中，它会“追随”其他数据的类型，比如刚刚的x，mode(x)为numeric，mode(x[4])亦然。

（2） NULL表示未知的状态。它不会在计算之中，如x<-c(1,2,3,NULL,4)，取mean(x)，结果为2.5。NULL是不算数的，length(c(NULL))为0，而length(c(NA))为1。可见NA“占着”位置，它存在着，而NULL没有“占着”位置，或者说，“不知道”有没有真正的数据。

    在R语言中缺失值通常以NA表示，判断是否缺失值的函数是is.na。
    另一个常用到的函数是complete.cases，它对数据框进行分析，判断某一观测样本是否完整。

NA与NULL的区别