【发布时间】:2019-04-22 09:06:26
【问题描述】:
如何在 LSTM 中的词嵌入层之前应用 SMOTE 算法。
我有一个文本二进制分类问题(Good(9500) 或 Bad(500) 审查,总共有 10000 个训练样本,它是不平衡的训练样本),意思是当我使用 LSTM 和预训练的词嵌入时(100每个单词的维度空间)也是如此,因此每个训练输入都有一个单词的 id(当文本描述少于 50 个单词时,总共有 50 个 id,填充为零,当描述超过 50 个字符时修剪为 50)字典。
以下是我的一般流程,
- 输入 - 1000(批量)X 50(序列长度)
- 词嵌入 - 200(唯一词汇词)X 100(词表示)
- 词嵌入层之后(LSTM 的新输入) - 1000(批量)X 50(序列)X 100(特征)
- LSTM 1000(批量)X 100(单位)的最终状态
- 应用最终层 1000(batch) X 100 X [100(units) X 2 (output class)]
我只想在 SMOTE 的帮助下为差评生成更多数据
【问题讨论】:
标签: python-3.x tensorflow deep-learning oversampling