【发布时间】:2014-02-03 17:31:06
【问题描述】:
有一个酒店评论数据集,每个数据集包含 1500 个正面和负面文件。为了确定我的算法的准确性,我必须首先检查酒店评论数据集中原始文件的积极或消极百分比。
我尝试了基本的百分比标准:
阳性率 % = 否。积极词数/(总积极词+总消极词)
但这没有重要的基础,所以不能在这方面工作。有没有其他的方法或理由可以工作?
示例-> (她是我见过的最漂亮的女士。) 应该比 (她是一位好女士。 )
我正在用 Python 做这项工作。
【问题讨论】: