【发布时间】:2021-12-28 21:10:53
【问题描述】:
我的数据是来自 Microsoft Excel 的 CSV 文件。该文件包含几个数字变量(例如薪水、体重),格式如下:123,456(123456)。
当我使用以下命令将该文件(“old_file”)导入 R 时:my_file = read.csv("old_file.csv"),所有数值变量都会自动转换为因子变量类型。
为了解决这个问题,我尝试在将文件导入R后,手动将这些变量转换为数值变量类型:
my_file$var_1 = as.numeric(my_file$var_1)
但是,这样做似乎会“扭曲”数据。例如,自然出现的 0 的“var_1”值似乎消失了。我还绘制了这些数据的一些直方图,这些数字转换变量的分布与预期分布不匹配。
我可以通过打开 Excel 电子表格并单击“格式按钮”并从数字变量中删除“逗号”并在每个数字的末尾添加“.00”来解决此问题。例如,123,456 现在变为 123456.00。
一旦我在原始 Excel 电子表格中进行了此更改,问题就解决了。
我的问题: 有没有办法在 R 中解决这个问题,而不是在原始 Excel 电子表格中手动解决这个问题?我只是碰巧发现了这个格式错误——将来,有没有办法自动防止这种情况在 R 中发生?例如。确保“在 Excel 文件中显示为数字”的变量在 R 中作为数字类型导入的某种方法?
【问题讨论】:
-
@BigBen:谢谢你的回复!我不知道这个!我会记住这一点 - 谢谢!