【发布时间】:2015-09-28 02:21:08
【问题描述】:
我的数据有很多分类特征。我使用 Dict_vectorizer 对它们进行编码。
For example df['color']=['green','blue','white']
df['size']=['small','big','medium'] .
我使用 RandomForest 算法。当我检查 feature_importances 的值时,我得到每个类别的不同值。 绿色 = 2.45*10^-2 蓝色 =6.2 *10^-3 以此类推。
不应该所有编码的类别值都具有相同的 feature_importances 值。就像所有类别的颜色都具有相同的重要性并且所有大小的值都具有相同的重要性? 有没有一种方法可以显式定义 feature_importances? 注:我明白了
【问题讨论】:
标签: scikit-learn random-forest categorical-data