【问题标题】:Should tag sentence or whole review for training set?应该为训练集标记句子还是整个评论?
【发布时间】:2017-04-26 23:58:21
【问题描述】:

我是分析领域的新手。也许这个问题对你来说很愚蠢。我正在使用R 进行评论分类。我必须将评论分为 50 个不同的类别。我正在手动标记数据以用于模型的训练目的。我有点困惑如何标记评论?

我在这里做的是,
首先我将单个评论转换成句子,然后给这些句子一个特定的类别。我在这儿干吗?

或者我必须给评论提供类别标签而不分成句子?如果评论属于超过 1 个类别,那么此时应该怎么办?

【问题讨论】:

  • 你需要在训练之前从文本中生成特征,你现在生成的是什么特征?
  • 我用的是词袋

标签: r model text-classification training-data naivebayes


【解决方案1】:

每条评论可以有多个标签。无论您为分类器使用什么功能,都不​​会影响您的标记过程。

您的标签评论(用于培训或评估)应如下所示:

ID        Content                    Tags
review#1, "content of the review#1", Mexican food,spicy
review#2, "content of the review#2", American food,apple pie,dessert 

其中“墨西哥菜”、“辣”、“苹果派”、“甜点”和“美国菜”都是可能的标签。对于每条评论,您只需要提供那些适用的标签。默认情况下,我们会假设其他标签不适用。

在训练时,您应该选择适用于multi-label 的分类器。

【讨论】:

    猜你喜欢
    • 2017-12-12
    • 2020-01-23
    • 2019-01-14
    • 2018-04-02
    • 1970-01-01
    • 1970-01-01
    • 2021-06-03
    • 1970-01-01
    • 2018-11-09
    相关资源
    最近更新 更多