【问题标题】:How to handle with categorical values over 53 factor levels using randomForest?如何使用 randomForest 处理超过 53 个因子水平的分类值?
【发布时间】:2017-09-19 00:51:44
【问题描述】:

我有一个训练数据集,如下所示:

'data.frame':   229907 obs. of  19 variables:
$ categories             : Factor w/ 2061 levels  "","Accessories,Fashion,Shopping,Cosmetics & Beauty Supply,Beauty & Spas",..: 253 1541 1720 1647 38 396 522 1727 482 641 ...
$ city                   : Factor w/ 61 levels "Ahwatukee","Anthem",..: 18 38 38 38 38 38 38 51 31 43 ...
$ latitude               : num  33.3 33.5 33.5 33.5 33.5 ...
$ longitude              : num  -112 -112 -112 -112 -112 ...
$ open                   : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
$ review_count.x         : int  26 127 130 26 8 229 453 24 3 126 ...
$ stars.x                : num  4.5 3.5 4 4 4.5 3.5 4 4 2.5 3.5 ...
$ state                  : Factor w/ 4 levels "AZ","CA","CO",..: 1 1 1 1 1 1 1 1 1 1 ...
$ date                   : Factor w/ 2504 levels "2005-03-07","2005-03-08",..: 2031 1649 1936 1936 2001 1936 1936 2312 2056 1874 ...
$ stars.y                : int  5 4 4 5 4 3 5 5 1 4 ...
$ votes_cool             : int  0 0 1 0 0 0 1 1 0 0 ...
$ votes_funny            : int  0 0 1 0 0 0 1 1 1 0 ...
$ votes_useful           : int  0 0 1 0 1 0 2 1 2 0 ...
$ average_stars          : num  5 4.67 4.43 4.43 4.43 4.43 4.43 4.43 2.75 3.65 ...
$ name.y                 : Factor w/ 8323 levels "a","a.","A","A.",..: 3841 6354 7263 7263 7263 7263 7263 7263 5372 6556 ...
$ review_count.y         : int  2 4 7 7 7 7 7 7 4 20 ...
$ Total_votes_cool_user  : int  1 0 4 4 4 4 4 4 0 7 ...
$ Total_votes_funny_user : int  0 0 3 3 3 3 3 3 1 5 ...
$ Total_votes_useful_user: int  2 0 6 6 6 6 6 6 3 32 ...

我的目标是应用 randomForest 算法,但 randomForest 只包含 53 级之前的因素。有什么建议可以解决这个问题吗?我曾考虑将所有分类值转换为整数,但我认为这对此后所需的预测效率没有帮助。我也遇到了 NA 值的问题。我使用 rfImput 替换它们,我也遇到了同样的问题。

谢谢,

【问题讨论】:

    标签: r random-forest


    【解决方案1】:

    你的许多“因素”根本不是真正的因素。 date 不是一个因素,应转换为日期。 name 应该是一个字符串。唯一可能被视为一个因素的是category,但不是现在这样。您需要对其进行解析并分离所有类别。一个可以帮助你的链接(也许):https://www.stat.berkeley.edu/classes/s133/factors.htmluserid 不是一个因素(因为可能每个观察值都有不同的值),依此类推。

    【讨论】:

      猜你喜欢
      • 2017-10-20
      • 1970-01-01
      • 2014-12-01
      • 2020-02-29
      • 2020-06-06
      • 2012-10-14
      • 2023-03-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多