【发布时间】:2020-04-07 18:21:29
【问题描述】:
我正在使用一组“杂乱无章”的数据,在数据输入过程中无法控制变量输入。为了继续我的分析,我需要在我的类别中保持一致,我害怕不得不手动清理数据。示例集如下所示:
Name<-c("Goat","goat","BillyGoat"," Billy Goat", "Billy.Goat","Bilygoat","Billy-Goat", 'Goat', "Billy/Goat","Billy*Goat",
"Dog","DOG","Dogs"," Dogs", " Dogs","Dogs ", "DVD","D.V.D",
"XYZ","XZY","Champlain","Chaplain","LakeChamplain","Lake Champlain")
Number<-seq(1,24)
DF<-data.frame(Name,Number)
我遇到了大小写问题、添加了额外空格、特殊字符(句点、连字符等)的使用不一致,以及一些明显的拼写问题。
通过将所有内容设为小写并删除所有空格,很容易解决前两个问题:
DF$Name<-tolower(DF$Name)
DF$Name<-gsub(" ","",DF$Name)
但鉴于我的实际数据集非常庞大,我希望避免手动清理我的数据的拼写和其他问题。鉴于这是数据科学中的一个常见问题,我可以使用任何 R 资源来清理这种混乱的数据吗?
【问题讨论】:
-
对于拼写,您可能需要某种字典来比较单词——这可能是次要任务。你想如何处理其他事情:全部小写,没有空格,没有标点符号?还是其他一些规则?
标签: r data-cleaning