R模拟完全随机缺失

为了验证自己填补算法的好坏,一般采用完整数据集进行人为缺失,缺失机制为完全随机缺失(MCAR),可设置不同缺失率。

先下载simFrame包  install.packages("simFrame"),simFrame包可以直接对数据进行缺失处理。

具体操作如下:

 

1. 导入simFrame包

> library(simFrame)

2. 读取你的完整数据集(csv文件)

> data<-read.csv("D://statlog.csv",sep=",")# sep为逗号分隔符

> dataFrame<-as.data.frame(data)

或者批量处理数据:

path <- "C:\\Users\\Administrator\\Desktop\\test"

fileNames <- dir(path)#批量读入文件一般使用dir(...),通过dir(...)可是获取该路径下所有的文件名

filePath <- sapply(fileNames, function(x){paste(path,x,sep='\\')})

data <- lapply(filePath, function(x){read.csv(x, header=T)})  

批量处理数据后生成的是列表的形式。

 

3. 设置缺失率并将数据集缺失处理。

> nac<-NAControl(NArate=0.1)#在此缺失率为10%。可以自行调整

> x<-setNA(dataFrame,nac)

 

4. 将有缺失的数据集输出保存为csv文件

> write.table(x,file="D:\\44.csv",sep=",",quote=TRUE)

过程如下图:

R语言模拟完全随机缺失数据

处理后的 数据:

R语言模拟完全随机缺失数据

相关文章:

  • 2021-11-08
  • 2021-07-22
  • 2021-12-23
  • 2021-11-18
  • 2021-03-30
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2021-07-19
  • 2021-04-08
  • 2021-11-18
  • 2022-12-23
  • 2021-11-18
  • 2021-06-02
  • 2021-10-19
相关资源
相似解决方案