我应该如何处理这个多分类问题？答案

【问题标题】：How should I approach this multi-classification problem?我应该如何处理这个多分类问题？
【发布时间】：2019-12-17 01:22:34
【问题描述】：

我正在尝试一种潜在的方法来预测给定文本数据的 ID 值。数据按以下方式划分：

组：一个 4 位数字，其中存在一组 ID

ID：13 位数字，即组号 + 唯一值

文本：来自文档的单词。

目标：仅根据文档中的文本预测 ID 号。

我拥有的数据有大约 1200 个不同的 ID，而只有 140 个不同的组。文档术语矩阵大约 186 列宽，大约 20,000 行。我有更多可以包含的数据。我创建了一个简单的神经网络，以 70% 的准确率预测组数。我的想法是先使用这个模型来预测组号，然后为每个组构建单独的模型，以缩小预测中的 ID 数量。最终模型将被训练并用于预测 ID。下面是我想到的一张图。这类似于集成学习中的堆叠吗？我对机器学习比较陌生，我正在尝试用不同的方法来解决这个问题。

我是在正确的道路上还是有更好的方法来做到这一点？非常感谢任何建议。

【问题讨论】：

标签： r machine-learning

【解决方案1】：

很大程度上取决于您认为您可以从文本中推断出group_number 和unique_value 的程度。 unique_value 是否完全依赖于 group_number？如果是这样，那么您可能希望首先预测 group_number 并将其用于预测 unique_value - 正如您建议对每个唯一组号所做的那样。您还必须考虑每个给定组的数据量，以及是否足以训练各自的模型。试一试，如果不起作用，请尝试使用单个神经网络，在其中输入文本和您已经预测的组号！

祝你好运！

【讨论】：