【发布时间】:2020-02-21 11:35:12
【问题描述】:
我正在从事一个文本挖掘项目,我使用标记的推文数据集(是或否与地震相关的推文包括 8000 个样本)来训练 Naive、MLP(深度学习)LibSVM 分类器来分类(是或否)未标记的推文(28000 个样本)在 RapidMiner 上。以下是三种机器学习算法的结果:
天真
准确度 = 80%
标记为“是”的推文数= 6056
MLP
准确率 = 86%
标记为“是”的推文数= 2300
LibSVM
准确率 = 92%
标记为“是”的推文数= 53
我的问题是为什么标记的推文的数量有很大的不同?
【问题讨论】:
-
看数据,而不仅仅是一些总结分数!在那些标有“是”的推文中,有多少真正与地震有关(阅读其中一些自己!)?
-
我之前查过一些推文,有一些真实的地震相关推文。
-
一些还是很多?训练数据中有多少?
标签: twitter data-mining libsvm rapidminer mlp