【发布时间】:2015-09-27 08:57:35
【问题描述】:
当我有使用 pandas get_dummies 创建的分类列时,我试图了解如何将 sklearn RFE 用于线性回归模型
我有一个数据集,布局是:
y = Carsales
X = Unemployment, Queries, CPI_energy, CPI_all, Month(comes in as an int)
我做的第一件事是将月份转换为对象,然后是类别(直接转换为类别类型在 pandas 中不起作用)。
df['MonthFac'] = df['Month'].astype('object')
df['MonthFac'] = df['MonthFac'].astype('category')
然后我创建我的 X,y:
from sklearn.linear_model import LinearRegression
cols = ['Unemployment','Queries','CPI_energy','CPI_all']
X = pd.concat([train[cols],(pd.get_dummies(train['MonthFac']))], axis = 1)
y = train['ElantraSales'].values
lm1 = LinearRegression()
lm1.fit(X,y)
那我想用RFE:
from sklearn.feature_selection import RFE
selector = RFE(lm1,step=1, n_features_to_select = 2)
selector.fit(X,y)
寻找 2 个功能的简单 RFE,但结果是它将月份列中的 2 个列为 1,从技术上讲,我只需要仅当月份列中的 1 个为 1 时,我才会使用“MonthFac”变量对于构建我的模型很重要,我想知道要使用的其他排名靠前的变量是什么。
或者我只是应该使用我的演绎推理来根据selector.ranking_ 输出找出要使用的其他变量吗?
与 R 相比,sklearn 的学习曲线似乎要高很多。
我也在 pandas/sklearn 中做分类值吗?在 R 中,我所要做的就是 as.factor 和 BAM,它完成了所有这些。
还有一个问题,如果我不确定最适合的功能数量是多少,我认为我可以创建一个循环选择器 R^2/R^2 adj/MSE 并将它们打印出来,但是因为我还有额外的一个月列会我的循环转到 16,因为基本上有 16 个功能,有没有更好的方法来做到这一点?
【问题讨论】:
-
如果能帮助您解决问题,您能接受我的回答吗?非常感谢。 :-)
-
抱歉,再次感谢!
-
完全没有问题。 :-) 很高兴它有帮助。
标签: pandas scikit-learn categories rfe