【问题标题】:training set with only one label, missing the other训练集只有一个标签,缺少另一个
【发布时间】:2016-06-10 10:23:37
【问题描述】:

您好,我一直在做一个机器学习项目,以预测给定的(查询、答案)对是否匹配良好(如果匹配良好,则标记为 1,否则标记为 0)。但问题是,在训练集中,所有的项目都标记为1。所以我很困惑,因为我不认为训练集有很强的判别力。更具体地说,现在我可以提取一些特征,例如: 1.查询和答案之间的文本相似性 2. 一些属性,如发布日期、创建者、关于哪个方面等。

也许我应该尝试半监督学习(从未研究过,所以不知道它是否会起作用)?但是有了这样的训练集,我什至无法进行验证....

【问题讨论】:

  • 只是为了澄清,您的数据集上没有负面示例?
  • 是的。更具体地说,实际上我有一些未标记的数据,让我有信心判断它们是正面的还是负面的。例如。如果查询和答案之间的文本相似性非常低,也许我可以说它们几乎不可能匹配?我可以手动将其标记为 NEGATIVE 吗?
  • @Alessandro 忘记@你了..
  • 是的,如果您确信自己有一些负面示例,您绝对应该标记它们并将它们包含在训练集中,否则您的模型将永远无法学习如何区分正面/负面
  • @Alessandro 信心其实没那么强。所以如果我手动标记它们可能会导致偏差。

标签: machine-learning classification speech-recognition training-data


【解决方案1】:

实际上,您可以仅在正样本上训练数据集; 1 类 SVM 可以做到这一点。然而,这假设任何“足够超出”原始数据集的东西都是负数据,“足够超出”主要受 gamma(允许的错误率)和 ​​k(核函数的度数)的影响。

您的问题的解决方案取决于您拥有的数据。当给定具有代表性的负面示例时,模型训练得更好,这是非常正确的。您给出的描述强烈表明您确实知道匹配不足。

您需要对比赛进行严格的 +/- 评分吗?大多数应用程序只是对它们进行排名:匹配强度就是得分。这会将您的问题从分类更改为预测案例。如果您确实需要严格的 +/- 分区(分类),那么我建议您稍微更改您的训练集:仅包括明显的示例:丢弃任何得分接近您的舒适阈值的东西以宣布匹配。

仅使用这些输入,训练您的模型。您将在好匹配和坏匹配之间有一条清晰的“小巷”,模型将“决定”在测试和生产中判断中间用例的方式。

【讨论】:

  • 您好,抱歉回复晚了。是的,我确实需要严格的 +/- 分类。我认为你的想法很有道理,这与本文中的部分监督分类非常相似:cs.uic.edu/~liub/S-EM/unlabelled.pdf
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2013-04-20
  • 2019-10-23
  • 1970-01-01
  • 2022-11-23
  • 2021-12-25
  • 2018-10-23
  • 1970-01-01
相关资源
最近更新 更多