【问题标题】:How to get sentiment score for a word in a given dataset如何获取给定数据集中单词的情绪分数
【发布时间】:2021-09-19 06:11:29
【问题描述】:

我有一个情感分析数据集,分为三类:正面、负面和中性。我还有一个单词列表(主要是名词),我想为其计算情绪值,以了解这些实体在数据集中“如何”(积极或消极地)被谈论。我阅读了一些在线资源,例如博客,并考虑了几种计算特定单词 X 的情绪分数的方法。

  1. 计算有多少数据实例(句子)中包含单词 X、“正面”标签、“负面”标签和“中性”标签。然后,计算该词的加权平均情绪。

  2. 采用未经训练的通用 BERT 架构,然后使用数据集对其进行训练。然后,将列表中的每个单词传递给经过训练的模型,以获得该单词的情感分数。

这些方法是否有意义?如果是这样,你能推荐一些我可以看的相关作品吗? 如果这些方法没有意义,您能否告诉我如何计算给定数据集中某个单词的情绪得分?

【问题讨论】:

标签: nlp dataset sentiment-analysis bert-language-model


【解决方案1】:

第一种方法会遇到与其他词袋模型相同的缺点。假设您有一个带有情绪分数的电影评论数据集,并且您想要找到名为 X 的特定演员的情绪。像“X 的表演是一部糟糕电影中唯一的好东西”这样的样本标签将是负面的,但对 X 的情绪是正面的。像第一个这样的简单方法无法处理这种情况。

第二种方法也没有多大意义,因为 BERT 模型在没有上下文的情况下可能表现不佳。您可以尝试使用弱监督学习,这有助于创建标记级标签。阅读第 3.3 节以了解 this paper 以了解这一点。免责声明:我是本文的作者之一。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-09-15
    • 1970-01-01
    • 1970-01-01
    • 2023-01-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多