【发布时间】:2019-05-10 09:56:30
【问题描述】:
我在 csv 文件中有数据。当我读到它时,这些列处于因子级别,我无法使用它进行任何计算。
我用过
as.numeric(df$variablename) 但它为变量呈现了一组完全不同的数据。
original data in the variable: 2961,488,632,
as.numeric output: 1,8,16
【问题讨论】:
-
我认为您在这里遗漏了一些步骤。你能告诉我们你是如何在 csv 文件中阅读的吗?你在使用 read.csv 吗?这些数字肯定没有引用吗?数据中的某些地方可能有字符吗?
-
这个问题不是read.table reads numbers as factors的重复问题。问题不在于数字太多。相反,一些数字被引用,或者(更有可能)列中有非数字值导致 R 将整个列强制转换为字符串。我建议重新打开,或者至少找到更合适的副本。
-
@gersht 可能是正确的 -- 数据可能有一些不是
NA的符号表示丢失,或者如果它们是手动输入的,则某些记录是作为字符串输入的。 -
呃,我写了一个很长的答案,无法发布。短版,读入,使用skimr::skim检查数据,交互处理。
-
由于这是数据类型的问题,因此以实际类型(例如来自
dput)的数据样本非常重要。没有它,就很难知道问题是由什么欺骗的——只是一个错误编码数据的猜谜游戏。