【发布时间】:2016-06-10 10:23:37
【问题描述】:
您好,我一直在做一个机器学习项目,以预测给定的(查询、答案)对是否匹配良好(如果匹配良好,则标记为 1,否则标记为 0)。但问题是,在训练集中,所有的项目都标记为1。所以我很困惑,因为我不认为训练集有很强的判别力。更具体地说,现在我可以提取一些特征,例如: 1.查询和答案之间的文本相似性 2. 一些属性,如发布日期、创建者、关于哪个方面等。
也许我应该尝试半监督学习(从未研究过,所以不知道它是否会起作用)?但是有了这样的训练集,我什至无法进行验证....
【问题讨论】:
-
只是为了澄清,您的数据集上没有负面示例?
-
是的。更具体地说,实际上我有一些未标记的数据,让我有信心判断它们是正面的还是负面的。例如。如果查询和答案之间的文本相似性非常低,也许我可以说它们几乎不可能匹配?我可以手动将其标记为 NEGATIVE 吗?
-
@Alessandro 忘记@你了..
-
是的,如果您确信自己有一些负面示例,您绝对应该标记它们并将它们包含在训练集中,否则您的模型将永远无法学习如何区分正面/负面
-
@Alessandro 信心其实没那么强。所以如果我手动标记它们可能会导致偏差。
标签: machine-learning classification speech-recognition training-data