训练集只有一个标签，缺少另一个答案

【问题标题】：training set with only one label, missing the other训练集只有一个标签，缺少另一个
【发布时间】：2016-06-10 10:23:37
【问题描述】：

您好，我一直在做一个机器学习项目，以预测给定的（查询、答案）对是否匹配良好（如果匹配良好，则标记为 1，否则标记为 0）。但问题是，在训练集中，所有的项目都标记为1。所以我很困惑，因为我不认为训练集有很强的判别力。更具体地说，现在我可以提取一些特征，例如： 1.查询和答案之间的文本相似性 2. 一些属性，如发布日期、创建者、关于哪个方面等。

也许我应该尝试半监督学习（从未研究过，所以不知道它是否会起作用）？但是有了这样的训练集，我什至无法进行验证....

【问题讨论】：

只是为了澄清，您的数据集上没有负面示例？
是的。更具体地说，实际上我有一些未标记的数据，让我有信心判断它们是正面的还是负面的。例如。如果查询和答案之间的文本相似性非常低，也许我可以说它们几乎不可能匹配？我可以手动将其标记为 NEGATIVE 吗？
@Alessandro 忘记@你了..
是的，如果您确信自己有一些负面示例，您绝对应该标记它们并将它们包含在训练集中，否则您的模型将永远无法学习如何区分正面/负面
@Alessandro 信心其实没那么强。所以如果我手动标记它们可能会导致偏差。

标签： machine-learning classification speech-recognition training-data

【解决方案1】：

实际上，您可以仅在正样本上训练数据集； 1 类 SVM 可以做到这一点。然而，这假设任何“足够超出”原始数据集的东西都是负数据，“足够超出”主要受 gamma（允许的错误率）和 k（核函数的度数）的影响。

您的问题的解决方案取决于您拥有的数据。当给定具有代表性的负面示例时，模型训练得更好，这是非常正确的。您给出的描述强烈表明您确实知道匹配不足。

您需要对比赛进行严格的 +/- 评分吗？大多数应用程序只是对它们进行排名：匹配强度就是得分。这会将您的问题从分类更改为预测案例。如果您确实需要严格的 +/- 分区（分类），那么我建议您稍微更改您的训练集：仅包括明显的示例：丢弃任何得分接近您的舒适阈值的东西以宣布匹配。

仅使用这些输入，训练您的模型。您将在好匹配和坏匹配之间有一条清晰的“小巷”，模型将“决定”在测试和生产中判断中间用例的方式。

【讨论】：

您好，抱歉回复晚了。是的，我确实需要严格的 +/- 分类。我认为你的想法很有道理，这与本文中的部分监督分类非常相似：cs.uic.edu/~liub/S-EM/unlabelled.pdf