【问题标题】:What is an appropriate training set size for sentiment analysis?情绪分析的合适训练集大小是多少?
【发布时间】:2016-06-29 23:08:28
【问题描述】:

我希望使用一些关于麻疹/mmr 疫苗的推文来了解疫苗接种的情绪如何随时间变化。我计划从我目前拥有的数据语料库中创建训练集(除非有人对我可以从哪里获得类似数据提出建议)。

我想将一条推文分类为:支持疫苗、反疫苗或两者都不是(这些都是关于疫情的真实推文)。

所以问题是:多大才算足够大?我想避免过度拟合的问题(所以我会做一个测试火车拆分),但随着我包含越来越多的推文,需要学习的特征数量急剧增加。

我在想 1000 条推文(每条 333 条)。任何意见都在这里表示感谢,如果您能推荐一些资源,那也很棒。

【问题讨论】:

    标签: nlp scikit-learn


    【解决方案1】:

    更多总是更好。 1000 条 3 路拆分的推文似乎相当雄心勃勃,我什至认为每班 1000 条推文的 3 路拆分相当低。在可行的时间内尽可能多地标记。

    此外,可能值得采用级联方法(尤其是数据很少),即标记一组vaccine vs non-vaccine,在vaccine 子集中,您将有一个pro vs anti 设置。

    根据我的经验,试图为一个包罗万象的“中性”类建模,其中包含没有明确“赞成”或“反对”的所有内容,这是非常困难的,因为噪音太大了。尤其是对于朴素贝叶斯等更简单的模型,我发现级联方法效果很好。

    【讨论】:

    • 1000多对吧?可能无法摆脱,但我会尽力而为。关于级联,这是否仍然意味着我将分为三组:疫苗专业、疫苗抗和非疫苗?也许我误解了级联方法。
    • 对于级联,你仍然有 3 个组,但你会在两个 2 类问题上训练 2 个不同的分类器,而不是在 3 路拆分上训练一个分类器。此外,由于数据如此之少,半监督学习(例如朴素贝叶斯 + 期望最大化)和主动学习可以帮助构建更好的分类器。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-01-19
    • 2011-11-24
    • 1970-01-01
    • 1970-01-01
    • 2014-04-30
    • 2012-09-20
    • 1970-01-01
    相关资源
    最近更新 更多