【发布时间】:2021-10-12 18:29:41
【问题描述】:
我正在尝试训练模型。我只有大约 8k 标记数据和大约 20k 未标记数据。我在想的是,使用 8k 标记数据训练和测试模型并使用该模型预测剩余 20k 未标记数据的类别是否可以。然后,使用所有数据创建一个新模型。我正在尝试进行二元分类,该模型在初始标记的总体上运行良好。
【问题讨论】:
-
你怎么知道这20k个未标记的数据被正确分类了?如果它是错误的,那么整个方法将创建一个使用错误标签训练的随机预言机。如果前 8 k 值已经足够好,那么实际上不需要接下来的 20k 吗?与例如tensorflow,您还可以冻结当前的训练数据并稍后继续使用新的训练数据,如果您的工具链可以做到这一点,那么额外的学习将更加有效。
-
你是对的,前 8k 是好的,剩下的是不必要的。这是一份工作申请,他们给我发了笔记本,所以我想充分利用我拥有的数据。
标签: python machine-learning scikit-learn classification data-science