【问题标题】:Data Pre-Processing and cleaning in RR中的数据预处理和清理
【发布时间】:2016-02-27 05:35:49
【问题描述】:

我的数据集中有一列Expected_Stipend,如下所示

Expected_Stipend<-c("5-10K","10k+","No Expectations") 

我想清理 k+ 并想替换 No expectations 并且我想使用 R 将此列转换为数字列?

原始数据有很多条目。

【问题讨论】:

  • 预期输出是什么? 5-10K中还有-
  • 不确定您的预期输出。如果你想让5-10K变成510,那么as.numeric(gsub("\\D+", "", Expected_Stipend))#[1] 510 10 NA
  • 不,我不希望 5-10 变成 510 我宁愿用 5 到 10 的中位数替换它
  • 我发布了一个解决方案,请检查。

标签: r data-management data-cleaning


【解决方案1】:

我们可以使用library(stringr)中的str_extract_all提取所有数字元素,得到median

library(stringr)
sapply(str_extract_all(Expected_Stipend, '\\d+'), 
              function(x) median(as.numeric(x)))
#[1]  7.5 10.0   NA

或使用gsubfn

library(gsubfn)
as.numeric(gsub("[^0-9.]+", "",
  gsubfn("([0-9]+)[^0-9]+([0-9]+).*", ~median(as.numeric(c(x,y))),
                  Expected_Stipend)))
#[1]  7.5 10.0   NA

更新

如果我们需要将5-10K 替换为5

as.numeric(sub("^\\D*(\\d+).*", "\\1", Expected_Stipend))
#[1]  5 10 NA

【讨论】:

  • 太棒了......谢谢......还有一个问题,如果我想用 5 替换 5-7 怎么办
猜你喜欢
  • 2023-03-27
  • 2014-04-27
  • 2015-11-10
  • 2017-11-24
  • 1970-01-01
  • 1970-01-01
  • 2021-05-09
  • 1970-01-01
相关资源
最近更新 更多