我们发现这张Gary.csv表格存在学生成绩不完全的(五十三名学生,三名学生存在成绩不完整、共四个不完整成绩)

    79号大学语文、高等数学

    96号中国近代史纲要

    65号大学体育

 

  R_Studio(学生成绩)对数据缺失值md.pattern()、异常值分析(箱线图)

 

   R_Studio(学生成绩)对数据缺失值md.pattern()、异常值分析(箱线图)

 

(1)NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集进行函数操作的时候,该NA不会被直接剔除。如x<-c(1,2,3,NA,4),取mean(x),则结果为NA,如果想去除NA的影响,需要显式告知mean方法,如 mean(x,na.rm=T);NA是没有自己的mode的,在vector中,它会“追随”其他数据的类型,比如刚刚的x,mode(x)为numeric,mode(x[4])亦然。

(2) NULL表示未知的状态。它不会在计算之中,如x<-c(1,2,3,NULL,4),取mean(x),结果为2.5。NULL是不算数的,length(c(NULL))为0,而length(c(NA))为1。可见NA“占着”位置,它存在着,而NULL没有“占着”位置,或者说,“不知道”有没有真正的数据。

    在R语言中缺失值通常以NA表示,判断是否缺失值的函数是is.na。
    另一个常用到的函数是complete.cases,它对数据框进行分析,判断某一观测样本是否完整。
NA与NULL的区别

相关文章:

  • 2021-10-31
  • 2022-02-08
  • 2022-12-23
  • 2021-08-24
  • 2021-08-28
  • 2021-10-02
  • 2021-07-17
  • 2021-07-09
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-09
  • 2022-02-06
  • 2021-09-12
相关资源
相似解决方案