【问题标题】:How should I approach this multi-classification problem?我应该如何处理这个多分类问题?
【发布时间】:2019-12-17 01:22:34
【问题描述】:

我正在尝试一种潜在的方法来预测给定文本数据的 ID 值。数据按以下方式划分:

组:一个 4 位数字,其中存在一组 ID

ID:13 位数字,即组号 + 唯一值

文本:来自文档的单词。

目标:仅根据文档中的文本预测 ID 号。

我拥有的数据有大约 1200 个不同的 ID,而只有 140 个不同的组。文档术语矩阵大约 186 列宽,大约 20,000 行。我有更多可以包含的数据。我创建了一个简单的神经网络,以 70% 的准确率预测组数。我的想法是先使用这个模型来预测组号,然后为每个组构建单独的模型,以缩小预测中的 ID 数量。最终模型将被训练并用于预测 ID。下面是我想到的一张图。这类似于集成学习中的堆叠吗?我对机器学习比较陌生,我正在尝试用不同的方法来解决这个问题。

我是在正确的道路上还是有更好的方法来做到这一点?非常感谢任何建议。

【问题讨论】:

    标签: r machine-learning


    【解决方案1】:

    很大程度上取决于您认为您可以从文本中推断出group_numberunique_value 的程度。 unique_value 是否完全依赖于 group_number?如果是这样,那么您可能希望首先预测 group_number 并将其用于预测 unique_value - 正如您建议对每个唯一组号所做的那样。您还必须考虑每个给定组的数据量,以及是否足以训练各自的模型。试一试,如果不起作用,请尝试使用单个神经网络,在其中输入文本和您已经预测的组号!

    祝你好运!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-04-01
      相关资源
      最近更新 更多