【发布时间】:2019-06-11 11:01:12
【问题描述】:
我有一个包含 29 个输出类的多类文本分类问题。这是训练数据集中 29 个类的记录分布。
我想知道我应该如何使用上采样来平衡我的数据?对于上采样,我应该将所有类上采样到 1337 行吗?
【问题讨论】:
-
我会尝试使用 SMOTE,我会为每个类创建 100 个人工样本。看看它是如何工作的。
标签: machine-learning classification text-classification