【发布时间】:2019-05-06 01:13:22
【问题描述】:
我已经训练了一个快速的文本监督模型。我确实使用了 pyfasttext python 库来预测模型。 例如:我有这样的数据。
text - label
The meeting is planned - event
The work should be finished - task
在这里,模型正确地预测了标签。当计划或工作词出现在句子中时。但是我列出了与训练数据无关的句子。 例如:狗是动物
res = model.predict_proba_single('the dog is an animal\n')
输出:
[(u'event', 0.49999999904767284)]
输出概率应为 0 或无标签。因为句子与所有标签都不相关。标签是多类的。我只举了两个例子。
同样的事情也发生在 scikit SGD 分类器中。
如何防止这种错误预测?
【问题讨论】:
-
我认为你只需要更有意义的训练数据
-
是的。我应该。但是,在实时我们可能不知道什么会进入我们的预测数据集中......!
标签: python scikit-learn fasttext