【问题标题】:One-hot encode before or after taking a small sample?取小样本之前或之后的 One-hot 编码?
【发布时间】:2020-07-30 23:25:42
【问题描述】:

我第一次使用相对较大的数据集 (50gb)。 有 30,000 个类和 100,000 个标签(倾斜数据)。 我正在尝试在 10% 的数据上训练我的 CNN 模型以进行测试。

我对标签进行热编码时遇到问题。 标签从 0 到 29,999(整数),所以在我的 10% 数据集中,我有一个包含 10,000 个标签的数组,随机值从 0 到 29,999。 发生的事情是 keras to categorical 创建一个长度 = max(labels) 的向量矩阵。

例如,如果在我的 10% 数据集中,最大标签是 25,000,那么一个编码将导致错误的形状 (10000, 250000)。因为我在这个子数据集中只有 20 个标签。

如何对这些标签进行热编码?

我不确定我是否足够清楚,第一次处理大数据让我有点困惑。

【问题讨论】:

    标签: python keras data-science one-hot-encoding


    【解决方案1】:

    在采集较小的样本之前,您绝对应该对目标进行一次热编码。那就没问题了。

    【讨论】:

    • 那么创建具有真实类数的模型,然后使用样本进行训练/验证?
    • 我没有看到任何其他选择
    猜你喜欢
    • 1970-01-01
    • 2015-10-09
    • 2019-07-14
    • 2021-11-02
    • 2020-02-08
    • 2017-04-23
    • 2017-06-21
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多