【发布时间】:2017-06-06 00:55:38
【问题描述】:
假设我有以下输入功能:
hotel_id = [1, 2, 3, 2, 3]
这是一个带有数值的分类特征。如果我把它按原样交给模型,模型会将其视为连续变量,即 2 > 1。
如果我申请sklearn.labelEncoder() 那么我会得到:
hotel_id = [0, 1, 2, 1, 2]
所以这个编码特征被认为是连续的还是分类的? 如果它被视为连续的,那么 labelEncoder() 有什么用。
附:我知道一种热编码。但是大约有 100 个hotel_id,所以不想使用它。 谢谢
【问题讨论】:
标签: python machine-learning scikit-learn categorical-data