【发布时间】:2019-12-17 01:22:34
【问题描述】:
我正在尝试一种潜在的方法来预测给定文本数据的 ID 值。数据按以下方式划分:
组:一个 4 位数字,其中存在一组 ID
ID:13 位数字,即组号 + 唯一值
文本:来自文档的单词。
目标:仅根据文档中的文本预测 ID 号。
我拥有的数据有大约 1200 个不同的 ID,而只有 140 个不同的组。文档术语矩阵大约 186 列宽,大约 20,000 行。我有更多可以包含的数据。我创建了一个简单的神经网络,以 70% 的准确率预测组数。我的想法是先使用这个模型来预测组号,然后为每个组构建单独的模型,以缩小预测中的 ID 数量。最终模型将被训练并用于预测 ID。下面是我想到的一张图。这类似于集成学习中的堆叠吗?我对机器学习比较陌生,我正在尝试用不同的方法来解决这个问题。
我是在正确的道路上还是有更好的方法来做到这一点?非常感谢任何建议。
【问题讨论】:
标签: r machine-learning