酒店评论数据集中文件的正面/负面百分比答案

【问题标题】：Positivity/Negativity percentage of a file in a hotel-review dataset酒店评论数据集中文件的正面/负面百分比
【发布时间】：2014-02-03 17:31:06
【问题描述】：

有一个酒店评论数据集，每个数据集包含 1500 个正面和负面文件。为了确定我的算法的准确性，我必须首先检查酒店评论数据集中原始文件的积极或消极百分比。

我尝试了基本的百分比标准：

阳性率 % = 否。积极词数/（总积极词+总消极词）

但这没有重要的基础，所以不能在这方面工作。有没有其他的方法或理由可以工作？

示例-> （她是我见过的最漂亮的女士。） 应该比 （她是一位好女士。 )

我正在用 Python 做这项工作。

【问题讨论】：

【解决方案1】：

您可以尝试的第一件事是从单词的二元类别（正面与负面）切换到滑动比例。 SentiWordNet 项目提供了这一点。

但是，在您的具体示例中，这实际上可能会使事情变得更糟。例如。 nice 提供P = 0.875。而beautiful 只得到P = 0.75。当然，如果您不同意，您可以修复 SentiWordNet 评级，但我建议使用自动系统进行这种调整，尽可能多地使用特定领域的训练数据。

顺便说一句，SentiWordNet 至少有几个 Python 接口。

http://compprag.christopherpotts.net/code-data/sentiwordnet.py 将自己描述为“使用 NLTK WordNet 类的 SentiWordNet 接口”。
https://pypi.python.org/pypi/sentiment_classifier 是一个更通用的工具，使用 SentiWordNet。

回到您的示例，关键区别在于“我见过的最 [SOMETHING]”的结构。这需要从词袋方法转换为实际解析和理解句子。我没有有用的线索可以给你，所以如果有人说有一个现成的开源包已经这样做了，我会和你一样高兴:-)

我还想提一下上下文的重要性。没有任何上下文的“她是一位美丽的女士”和“她是一位好女士”既简单又积极。但就酒店评论及其与我的相关性而言，也许“不错”比“漂亮”更有用。为了好玩，比较一下这两个：

这就是我喜欢情绪分析的挑战；商业应用只是解决此类问题的借口！

【讨论】：