【发布时间】:2020-07-30 23:25:42
【问题描述】:
我第一次使用相对较大的数据集 (50gb)。 有 30,000 个类和 100,000 个标签(倾斜数据)。 我正在尝试在 10% 的数据上训练我的 CNN 模型以进行测试。
我对标签进行热编码时遇到问题。 标签从 0 到 29,999(整数),所以在我的 10% 数据集中,我有一个包含 10,000 个标签的数组,随机值从 0 到 29,999。 发生的事情是 keras to categorical 创建一个长度 = max(labels) 的向量矩阵。
例如,如果在我的 10% 数据集中,最大标签是 25,000,那么一个编码将导致错误的形状 (10000, 250000)。因为我在这个子数据集中只有 20 个标签。
如何对这些标签进行热编码?
我不确定我是否足够清楚,第一次处理大数据让我有点困惑。
【问题讨论】:
标签: python keras data-science one-hot-encoding