清理数据以创建一致的变量命名答案

【问题标题】：Cleaning data to create consistent variable naming清理数据以创建一致的变量命名
【发布时间】：2020-04-07 18:21:29
【问题描述】：

我正在使用一组“杂乱无章”的数据，在数据输入过程中无法控制变量输入。为了继续我的分析，我需要在我的类别中保持一致，我害怕不得不手动清理数据。示例集如下所示：

Name<-c("Goat","goat","BillyGoat"," Billy Goat", "Billy.Goat","Bilygoat","Billy-Goat", 'Goat', "Billy/Goat","Billy*Goat",
        "Dog","DOG","Dogs"," Dogs", "  Dogs","Dogs  ", "DVD","D.V.D",
        "XYZ","XZY","Champlain","Chaplain","LakeChamplain","Lake Champlain")

Number<-seq(1,24)

DF<-data.frame(Name,Number)

我遇到了大小写问题、添加了额外空格、特殊字符（句点、连字符等）的使用不一致，以及一些明显的拼写问题。

通过将所有内容设为小写并删除所有空格，很容易解决前两个问题：

DF$Name<-tolower(DF$Name)
DF$Name<-gsub(" ","",DF$Name)

但鉴于我的实际数据集非常庞大，我希望避免手动清理我的数据的拼写和其他问题。鉴于这是数据科学中的一个常见问题，我可以使用任何 R 资源来清理这种混乱的数据吗？

【问题讨论】：

对于拼写，您可能需要某种字典来比较单词——这可能是次要任务。你想如何处理其他事情：全部小写，没有空格，没有标点符号？还是其他一些规则？

标签： r data-cleaning

【解决方案1】：

您可以使用来自janitor 包的clean_names()。

DF <- DF %>% clean_names()

【讨论】：

感谢您的回答，但如果我按原样使用上面的代码，我看不到 DF 有任何变化，除了 colnames 更改为小写