【发布时间】:2016-06-29 23:08:28
【问题描述】:
我希望使用一些关于麻疹/mmr 疫苗的推文来了解疫苗接种的情绪如何随时间变化。我计划从我目前拥有的数据语料库中创建训练集(除非有人对我可以从哪里获得类似数据提出建议)。
我想将一条推文分类为:支持疫苗、反疫苗或两者都不是(这些都是关于疫情的真实推文)。
所以问题是:多大才算足够大?我想避免过度拟合的问题(所以我会做一个测试火车拆分),但随着我包含越来越多的推文,需要学习的特征数量急剧增加。
我在想 1000 条推文(每条 333 条)。任何意见都在这里表示感谢,如果您能推荐一些资源,那也很棒。
【问题讨论】:
标签: nlp scikit-learn