【发布时间】:2018-08-22 14:49:31
【问题描述】:
对数据集中的列执行一次热编码后的总列数应该是多少?如果有k列,应该是k-1还是k。
当我尝试使用 model.matrix() SEX 列被转换为两列sexm 和sexf。我明白。 但就教育而言,有四类:G、U、H、O 但它转换成三列。教育,教育和教育。
所以问题是为什么教育栏被分成三栏而不是四栏?它对我的模型有何影响?
编码前:
编码后:
代码如下:
#Factorizing the catagorical variables
df$SEX = factor(df$SEX,levels = c(1,2),labels = c('M','F'))
df$EDUCATION = factor(df$EDUCATION,levels = c(1,2,3,4),labels =
c('G','U','H','O'))
df$MARRIAGE = factor(df$MARRIAGE,levels = c(1,2,3),labels = c('M','S','O'))
#Encoding (Dummy Variable Creation)
df = data.frame(model.matrix(~.-1,df))
这是原始数据的视图
【问题讨论】:
-
请分享使用的代码和数据。
-
这属于stats.stackexchange.com,因为它不是编程问题。
标签: r machine-learning data-science