【问题标题】:Loading data with missing values as numeric data将缺失值的数据加载为数值数据
【发布时间】:2014-11-16 22:38:21
【问题描述】:

我正在尝试使用 r 中的 mi 包估算缺失值,但遇到了问题。

当我将数据加载到 r 中时,它会将缺失值的列识别为因子变量。如果我使用命令将其转换为数字变量

dataset$Income <- as.numeric(dataset$Income)

它将列转换为序数值(最小值为 1,第二小的值为 2,等等...)

我想将此列转换为数值,同时保留变量的原始值。我该怎么做?

编辑: 既然有人问了,这是我的代码和数据的示例。

数据:

96  GERMANY 6   1960    72480   73  50.24712    NA  0.83034767  0
97  GERMANY 6   1961    73123   85  48.68375    NA  0.79377610  0
98  GERMANY 6   1962    73739   98  48.01359    NA  0.70904115  0
99  GERMANY 6   1963    74340   132 46.93588    NA  0.68753213  0
100 GERMANY 6   1964    74954   146 47.89413    NA  0.67055298  0
101 GERMANY 6   1965    75638   160 47.51518    NA  0.64411484  0
102 GERMANY 6   1966    76206   172 48.46009    NA  0.58274711  0
103 GERMANY 6   1967    76368   183 48.18423    NA  0.57696055  0
104 GERMANY 6   1968    76584   194 48.87967    NA  0.64516949  0
105 GERMANY 6   1969    77143   210 49.36219    NA  0.55475352  0
106 GERMANY 6   1970    77783   227 49.52712    3,951.00    0.53083969  0
107 GERMANY 6   1971    78354   242 51.01421    4,282.00    0.51080717  0
108 GERMANY 6   1972    78717   254 51.02941    4,655.00    0.48773913  0
109 GERMANY 6   1973    78950   264 50.61033    5,110.00    0.48390087  0
110 GERMANY 6   1974    78966   270 48.82353    5,561.00    0.56562229  0
111 GERMANY 6   1975    78682   284 50.50279    6,092.00    0.56846030  0
112 GERMANY 6   1976    78298   301 49.22833    6,771.00    0.53536154  0
113 GERMANY 6   1977    78160   321 49.18999    7,479.00    0.55012371  0

代码:

Income <- dataset$Income

给我一​​个因子变量,因为数据中有 NA。如果我尝试用

将它变成数字
as.numeric(Income)

它丢弃原始值,并用列的等级替换它们。我想保留原始值,同时仍然识别缺失值。

【问题讨论】:

  • 缺失值和观测值如何表示?你能告诉我们你的数据集的一些行吗?
  • 我已经在下面 Phil 的评论中链接了数据集,缺失的值表示为 na,尽管我尝试过保留 na 并只留下空白。

标签: r categorical-data missing-data


【解决方案1】:

每个德国数据管理员都知道的一个问题:NAs 列用冒号连接数字。但是R只知道小数点的英文风格,没有数字分组。因此,该列被视为按顺序缩放的字符变量。

试着去掉冒号,你会得到数值。

顺便说一句,即使我们在德国写小数冒号,像3,951.00 这样的数字在语法上也没有意义。它们甚至在其他语言中都没有意义。请参阅国际号码语法的these examples

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-11-25
    • 2020-08-22
    • 2013-02-15
    • 2021-06-25
    相关资源
    最近更新 更多