【问题标题】:Positivity/Negativity percentage of a file in a hotel-review dataset酒店评论数据集中文件的正面/负面百分比
【发布时间】:2014-02-03 17:31:06
【问题描述】:

有一个酒店评论数据集,每个数据集包含 1500 个正面和负面文件。为了确定我的算法的准确性,我必须首先检查酒店评论数据集中原始文件的积极或消极百分比。

我尝试了基本的百分比标准:

阳性率 % = 否。积极词数/(总积极词+总消极词)

但这没有重要的基础,所以不能在这方面工作。有没有其他的方法或理由可以工作?

示例-> (她是我见过的最漂亮的女士。) 应该比 (她是一位好女士。 )

我正在用 Python 做这项工作。

【问题讨论】:

    标签: sentiment-analysis


    【解决方案1】:

    您可以尝试的第一件事是从单词的二元类别(正面与负面)切换到滑动比例。 SentiWordNet 项目提供了这一点。

    但是,在您的具体示例中,这实际上可能会使事情变得更糟。例如。 nice 提供P = 0.875。而beautiful 只得到P = 0.75。当然,如果您不同意,您可以修复 SentiWordNet 评级,但我建议使用自动系统进行这种调整,尽可能多地使用特定领域的训练数据。

    顺便说一句,SentiWordNet 至少有几个 Python 接口。

    回到您的示例,关键区别在于“我见过的最 [SOMETHING]”的结构。这需要从词袋方法转换为实际解析和理解句子。我没有有用的线索可以给你,所以如果有人说有一个现成的开源包已经这样做了,我会和你一样高兴:-)

    我还想提一下上下文的重要性。没有任何上下文的“她是一位美丽的女士”和“她是一位好女士”既简单又积极。但就酒店评论及其与我的相关性而言,也许“不错”比“漂亮”更有用。为了好玩,比较一下这两个:

    • “接待员是位好女士。”

    • “早餐时,在我附近的一张桌子旁,是我见过的最漂亮的女士。这是一种令人愉快的从食物中分心的事情。”

    这就是我喜欢情绪分析的挑战;商业应用只是解决此类问题的借口!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-11-29
      • 2019-09-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多