一、IMDB数据集
- 数据集介绍
- IMDB数据集下载:http://ai.stanford.edu/~amaas/data/sentiment/
- 数据集简介:
IMDb创建于1990年10月17日,从1998年开始成为亚马逊公司旗下网站,数据集中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。
-
数据集分析
数据下载后包括train和test两个文件夹与三个文件,其中test文件夹中的两个文件夹pos和neg分别为1.25w个代表积极与消极态度的训练样本,而train中的三个文件夹pos、neg和unsup分别为1.25w积极、消极态度训练样本以及5W个未标记的样本,未标记的样本可以用来无监督学习时使用
二、THUCNews中文数据集
- 数据集介绍
- 下载地址:
http://thuctc.thunlp.org/sendMessage - 数据集介绍:
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、**、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%
-
数据集分析
THUCNews中文数据集包括四个文件:cnews.train.txt、cnews.val.txt、cnews.test.txt 和 cnews.vocab.txt
- cnews.train.txt是训练数据
- cnews.val.txt是验证数据
- cnews.test.txt是测试数据
- cnews.vocab.txt是词汇表、字符级、大小为5000根据频次选择
三、二分类问题
在二分类问题中,分类器将一个实例的分类器标记为是或者否,这可以用一个混淆矩阵来表示:
四、准确率
准确率(precision):所有预测中为正分类中预测正确所占的比例:
五、召回率
对正分类的所有预测中,预测正确的比例:
六、F1-Score
引入F1-Score作为综合指标,是为了平衡准确率和召回率的影响,较为全面的评价一个分类器:
七、ROC曲线
在ROC曲线中,以FPR为x轴,TPR为y轴
在ROC空间,ROC曲线越凸向左上方向效果越好
八、AUC
AUC(Area Under Curve)即指曲线下面积占总方格的比例。有时不同分类算法的ROC曲线存在交叉,因此很多时候用AUC值作为算法好坏的评判标准。面积越大,表示分类性能越好