应该为训练集标记句子还是整个评论？答案

【问题标题】：Should tag sentence or whole review for training set?应该为训练集标记句子还是整个评论？
【发布时间】：2017-04-26 23:58:21
【问题描述】：

我是分析领域的新手。也许这个问题对你来说很愚蠢。我正在使用R 进行评论分类。我必须将评论分为 50 个不同的类别。我正在手动标记数据以用于模型的训练目的。我有点困惑如何标记评论？

我在这里做的是，
首先我将单个评论转换成句子，然后给这些句子一个特定的类别。我在这儿干吗？

或者我必须给评论提供类别标签而不分成句子？如果评论属于超过 1 个类别，那么此时应该怎么办？

【问题讨论】：

你需要在训练之前从文本中生成特征，你现在生成的是什么特征？
我用的是词袋

标签： r model text-classification training-data naivebayes

【解决方案1】：

每条评论可以有多个标签。无论您为分类器使用什么功能，都不会影响您的标记过程。

您的标签评论（用于培训或评估）应如下所示：

ID        Content                    Tags
review#1, "content of the review#1", Mexican food,spicy
review#2, "content of the review#2", American food,apple pie,dessert

其中“墨西哥菜”、“辣”、“苹果派”、“甜点”和“美国菜”都是可能的标签。对于每条评论，您只需要提供那些适用的标签。默认情况下，我们会假设其他标签不适用。

在训练时，您应该选择适用于multi-label 的分类器。

【讨论】：