【问题标题】:Using the predictions of a model to train a new model [closed]使用模型的预测来训练新模型 [关闭]
【发布时间】:2021-10-12 18:29:41
【问题描述】:

我正在尝试训练模型。我只有大约 8k 标记数据和大约 20k 未标记数据。我在想的是,使用 8k 标记数据训练和测试模型并使用该模型预测剩余 20k 未标记数据的类别是否可以。然后,使用所有数据创建一个新模型。我正在尝试进行二元分类,该模型在初始标记的总体上运行良好。

【问题讨论】:

  • 你怎么知道这20k个未标记的数据被正确分类了?如果它是错误的,那么整个方法将创建一个使用错误标签训练的随机预言机。如果前 8 k 值已经足够好,那么实际上不需要接下来的 20k 吗?与例如tensorflow,您还可以冻结当前的训练数据并稍后继续使用新的训练数据,如果您的工具链可以做到这一点,那么额外的学习将更加有效。
  • 你是对的,前 8k 是好的,剩下的是不必要的。这是一份工作申请,他们给我发了笔记本,所以我想充分利用我拥有的数据。

标签: python machine-learning scikit-learn classification data-science


【解决方案1】:

是的,你可以这样做,这绝对没问题,而且这种策略也经常被使用。在此过程中,您需要注意以下几点:

  1. 从标记的18000 图像创建良好的分层测试数据。如果可能,请使用 k 折拆分。
  2. 现在预测其他未标记的图像并获取伪标签。
  3. 在整个数据集上训练模型。
  4. 这是最重要的一步。在这里,您将在 k-fold 拆分上验证您的模型,然后评估您的模型的性能是否与仅在标记数据上的 k-fold 结果相比有所提高。

不断重复这些步骤,直到您的分数提高,但请始终注意不存在有关 k-fold 数据的数据泄漏。

【讨论】:

    猜你喜欢
    • 2017-08-19
    • 1970-01-01
    • 2022-10-19
    • 2023-03-10
    • 2017-10-29
    • 2019-04-10
    • 1970-01-01
    • 1970-01-01
    • 2017-11-27
    相关资源
    最近更新 更多