【发布时间】:2021-03-22 01:06:43
【问题描述】:
我有一个包含一些数据输入错误的数据框。
我希望用每组最常见的值替换每组的这些异常值。
我的数据如下:
df <- data.frame(CODE = c("J1745","J1745","J1745","J1745","J1100","J1100","J1100","J1100","J1100","J1100"),NDC = c(1234,1234,1234,1234,5678,5678,5678,5678,5678,5678),DOSAGE = c("10ML","10 ML","10 ML","10 ML","5 ML","5 ML","5 ML","5 ML","50 ML","5 ML"),DESC = c("TEXT1","TEXT 1","TEXT 1","TEXT 1","TEXT 2","TEXT 2","TEXT 2","TEXT 2","TEXT 10","TEXT 2"))
如您所见,我的 DOSAGE 和 DESC 列包含一些不一致之处,我想将它们替换为每个组中最常见的值。
我想要的输出如下所示:
【问题讨论】:
-
为什么要用最常见的值替换?这不是一个好习惯。我认为最好尝试使用一些正则表达式来尝试将它们替换为正确的值,而不仅仅是按最常见的类别进行估算。
-
您能否将您的输入和输出示例发布为文本(代码块)而不是屏幕截图?它更易于访问...
-
您接受了@RonakShah 的回答,但请参阅我的评论,了解为什么这可能不是您想要的。您能否澄清一下您的意思/如何定义“异常值”?跨度>