一种热编码 2500 个不同的分类变量答案

【问题标题】：OneHotEncoding 2500 different categorical variables一种热编码 2500 个不同的分类变量
【发布时间】：2020-09-12 10:48:37
【问题描述】：

我正在开展一个航班推荐项目，其中将提供每个来源的机场代码以及一些数据。有了这个，我必须预测飞机可以到达的目的地。

我必须处理 6+ 百万行。所以我在 oneHotEncoding 机场代码时遇到问题（在当前数据集中超过 3000 个）。在将其安装到模型中之前。任何人都可以建议如何使用 onehotencode 或处理此类问题吗？

from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)

我无法分配 11.3 Gib。

我尝试了更少的数据并且它正在工作。

【问题讨论】：

【解决方案1】：

你试过pandas吗？它有一个类似的get_dummies 函数，可以工作。

【讨论】：