【发布时间】:2019-09-28 04:27:02
【问题描述】:
我正在为方言进行文本分类。在我训练了 3 种方言之后,我用我拥有的测试数据对其进行了测试。但是,现在假设我要从 twitter 中提取一条推文,并要求分类器输出相应的方言,但是如果这条推文不是用这 3 种方言中的任何一种写的呢?我假设他无论如何都会给出一个类别,但这将是误报。因此,我希望他给出一个无类别。怎么做?我是否也应该提供带有无标签的训练数据?
【问题讨论】:
-
预测的格式是什么?如果它给出了每个的概率/机会,你可以用它来决定。
-
@doctorlove 预测是方言的标签。我怎样才能让它成为概率?
-
因此预测器会给出三个分数,例如 [1, 0, 0] 肯定表示“方言 A”。我不清楚你有什么设置。
-
一些分类器也给出概率作为输出。顺便说一句,我不确定仅考虑选择接受或放弃预测的概率是否会导致正确的决策。
标签: python machine-learning text-classification countvectorizer