【发布时间】:2017-03-14 09:52:39
【问题描述】:
对于我的任务,我需要制作一个机器学习程序,它执行以下操作:
作为输入,程序获取项目的建筑计划(以 PDF 文本形式编写),主要是桥梁和水闸。机器学习程序将该 PDF 中的每个句子作为样本(该句子中的单词是特征),并且需要将每个样本/句子分类为以下类别之一:硬件相关和软件相关。 (我将朴素贝叶斯算法与 TF-DIF 结合使用。)
然而,你可以想象,也有很多不相关的句子,既不是硬件也不是软件相关。我是否需要创建一个单独的类别“默认/无关”,以便我总共有三个类别?还是只保留这两个类别,并根据它们的概率对它们进行分类更好?例如;一句话在0.6归类为硬件,那我就忽略了。但如果结果是 0.8 或更高,那么我将其归类为硬件。
【问题讨论】:
标签: text machine-learning classification naivebayes