【问题标题】:Cleaning data to create consistent variable naming清理数据以创建一致的变量命名
【发布时间】:2020-04-07 18:21:29
【问题描述】:

我正在使用一组“杂乱无章”的数据,在数据输入过程中无法控制变量输入。为了继续我的分析,我需要在我的类别中保持一致,我害怕不得不手动清理数据。示例集如下所示:

Name<-c("Goat","goat","BillyGoat"," Billy Goat", "Billy.Goat","Bilygoat","Billy-Goat", 'Goat', "Billy/Goat","Billy*Goat",
        "Dog","DOG","Dogs"," Dogs", "  Dogs","Dogs  ", "DVD","D.V.D",
        "XYZ","XZY","Champlain","Chaplain","LakeChamplain","Lake Champlain")

Number<-seq(1,24)

DF<-data.frame(Name,Number)

我遇到了大小写问题、添加了额外空格、特殊字符(句点、连字符等)的使用不一致,以及一些明显的拼写问题。

通过将所有内容设为小写并删除所有空格,很容易解决前两个问题:

DF$Name<-tolower(DF$Name)
DF$Name<-gsub(" ","",DF$Name)

但鉴于我的实际数据集非常庞大,我希望避免手动清理我的数据的拼写和其他问题。鉴于这是数据科学中的一个常见问题,我可以使用任何 R 资源来清理这种混乱的数据吗?

【问题讨论】:

  • 对于拼写,您可能需要某种字典来比较单词——这可能是次要任务。你想如何处理其他事情:全部小写,没有空格,没有标点符号?还是其他一些规则?

标签: r data-cleaning


【解决方案1】:

您可以使用来自janitor 包的clean_names()

DF <- DF %>% clean_names()

【讨论】:

  • 感谢您的回答,但如果我按原样使用上面的代码,我看不到 DF 有任何变化,除了 colnames 更改为小写
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-06-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多