【发布时间】:2020-09-12 10:48:37
【问题描述】:
我正在开展一个航班推荐项目,其中将提供每个来源的机场代码以及一些数据。有了这个,我必须预测飞机可以到达的目的地。
我必须处理 6+ 百万行。所以我在 oneHotEncoding 机场代码时遇到问题(在当前数据集中超过 3000 个)。在将其安装到模型中之前。 任何人都可以建议如何使用 onehotencode 或处理此类问题吗?
from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)
我无法分配 11.3 Gib。
我尝试了更少的数据并且它正在工作。
【问题讨论】:
标签: machine-learning bigdata classification one-hot-encoding multilabel-classification