在 R 中处理 ID 变量和因子答案

【问题标题】：Handling ID variables and Factors in R在 R 中处理 ID 变量和因子
【发布时间】：2021-03-18 15:30:36
【问题描述】：

我有这个数据集，我想构建一些模型并进行比较。

但是我对产品 ID 自变量应该如何处理感到很困惑。

我有这个数据集，所有变量都是数字，但是product ID变量是int如下图：


str(data)

'data.frame':   16 obs. of  6 variables:                                                                       
 $ Productid: int  1 2 3 4 5 6 7 8 9 10 ...                                                                   
              $ x1       : num  6.21 7.75 7.21 8.33 4.87 5.09 6.04 6.09 6.08 6.17 ...                                             
              $ x2       : num  7.08 3.29 4.38 2.79 7.71 7.5 6.58 5.13 5.5 5.58 ...                                               
              $ x3       : num  2 1.54 1.79 1.63 1.96 2.13 2.04 2 2.09 2.13 ...                                        
              $ x4       : num  2.54 2.26 2.58 2.71 1.7 2.42 2.04 2.42 2.46 2.48 ...                                         
              $ Y        : num  4.97 6.98 4.58 6.45 4.33 4.26 6.16 6.26 5.83 5.74 ...

如何处理这个产品ID？我应该做一个热编码吗？

如果解决方案是将其转换为因子，那么 ML 算法接受因子是什么？

【问题讨论】：

我投票结束这个问题，因为它与 help center 中定义的编程无关，而是关于 ML 理论和/或方法 - 请参阅 machine-learning @ 中的介绍和注意事项987654323@.

标签： machine-learning factors

【解决方案1】：

ID 仅用于识别产品，但对因变量没有任何影响，因此不应将其包含在任何模型中。

【讨论】：