【发布时间】:2020-04-01 12:56:22
【问题描述】:
我很好奇sklearn 是如何处理sklearn.tree.DecisionTreeClassifier 中的连续变量的?我尝试使用一些连续变量而不使用 DecisionTreeClassifier 进行预处理,但它得到了可以接受的准确度。
下面是一种将连续变量转化为分类变量的方法,但不能得到同样的准确度。
def preprocess(data, min_d, max_d, bin_size=3):
norm_data = np.clip((data - min_d) / (max_d - min_d), 0, 1)
categorical_data = np.floor(bin_size*norm_data).astype(int)
return categorical_data
X = preprocess(X, X.min(), X.max(), 3)
【问题讨论】:
标签: python python-3.x machine-learning scikit-learn decision-tree