【发布时间】:2017-01-19 13:33:36
【问题描述】:
我的机器学习目标是从项目需求文档中寻找潜在的风险(将花费更多的钱)和机会(将节省金钱)。
我的想法是将数据中的句子分为以下类别之一:风险、机会和不相关(无风险、无机会、默认类别)。
我将使用带有 tf-dif 的多项式贝叶斯分类器。
现在我需要为我的训练集和测试集准备数据。我将这样做的方法是将需求文档中的每个句子标记为 3 个类别中的 1 个。这是一个好方法吗?
或者我应该只标记明显是风险/机会/不相关的句子?
另外,不相关类别是个好主意吗?
【问题讨论】:
标签: text machine-learning classification naivebayes