【问题标题】:OneHotEncoding 2500 different categorical variables一种热编码 2500 个不同的分类变量
【发布时间】:2020-09-12 10:48:37
【问题描述】:

我正在开展一个航班推荐项目,其中将提供每个来源的机场代码以及一些数据。有了这个,我必须预测飞机可以到达的目的地。

我必须处理 6+ 百万行。所以我在 oneHotEncoding 机场代码时遇到问题(在当前数据集中超过 3000 个)。在将其安装到模型中之前。 任何人都可以建议如何使用 onehotencode 或处理此类问题吗?

from sklearn.preprocessing import OneHotEncoder
onehotencoder1 = OneHotEncoder()
onehotencoder1.fit(X)
X = onehotencoder1.transform(X)

我无法分配 11.3 Gib。

我尝试了更少的数据并且它正在工作。

【问题讨论】:

    标签: machine-learning bigdata classification one-hot-encoding multilabel-classification


    【解决方案1】:

    你试过pandas吗?它有一个类似的get_dummies 函数,可以工作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-11-02
      • 2023-03-13
      • 2023-01-03
      • 2019-07-17
      • 2023-03-06
      • 2016-05-08
      • 2018-12-17
      相关资源
      最近更新 更多