取小样本之前或之后的 One-hot 编码？答案

【问题标题】：One-hot encode before or after taking a small sample?取小样本之前或之后的 One-hot 编码？
【发布时间】：2020-07-30 23:25:42
【问题描述】：

我第一次使用相对较大的数据集 (50gb)。有 30,000 个类和 100,000 个标签（倾斜数据）。我正在尝试在 10% 的数据上训练我的 CNN 模型以进行测试。

我对标签进行热编码时遇到问题。标签从 0 到 29,999（整数），所以在我的 10% 数据集中，我有一个包含 10,000 个标签的数组，随机值从 0 到 29,999。发生的事情是 keras to categorical 创建一个长度 = max(labels) 的向量矩阵。

例如，如果在我的 10% 数据集中，最大标签是 25,000，那么一个编码将导致错误的形状 (10000, 250000)。因为我在这个子数据集中只有 20 个标签。

如何对这些标签进行热编码？

我不确定我是否足够清楚，第一次处理大数据让我有点困惑。

【问题讨论】：

【解决方案1】：

在采集较小的样本之前，您绝对应该对目标进行一次热编码。那就没问题了。

【讨论】：