【发布时间】:2017-12-05 17:08:52
【问题描述】:
我正在学习 Python Scikit-learn。
我最近在一个问题集上实现了d-tree。数据集具有所有分类特征,与 R 不同,Python 需要对分类变量进行虚拟编码。
我使用以下代码对所有分类变量进行了虚拟编码:
col_names =['city_name','signup_os','signup_channel']
df_with_dummies = pd.get_dummies(df2, columns = col_names)
虚拟编码根据每列具有的因子数创建新列,然后用 0 和 1 替换值:
我在这个新数据帧上创建了d-tree 算法,但让我感到困惑的是输出。
d-tree 方法已经能够为虚拟编码列提供 .5 的节点值:
如何解释输出?值sign_up_os_windows <=.5有什么意义?我应该如何将其转换回原始变量?
请帮助我输入您的意见。
【问题讨论】:
标签: python python-3.x pandas machine-learning scikit-learn