【发布时间】:2015-11-21 16:16:28
【问题描述】:
谁能指出我用于分类的一些大型语料库?
但总的来说,我不是指路透社或 20 个新闻组,我指的是 GB 大小的语料库,而不是 20MB 或类似的大小。
我只能找到这个路透社和 20 个新闻组,这对于我需要的东西来说非常小。
【问题讨论】:
-
提供了答案。如果没有帮助,请接受或评论
标签: dataset classification corpus text-classification
谁能指出我用于分类的一些大型语料库?
但总的来说,我不是指路透社或 20 个新闻组,我指的是 GB 大小的语料库,而不是 20MB 或类似的大小。
我只能找到这个路透社和 20 个新闻组,这对于我需要的东西来说非常小。
【问题讨论】:
标签: dataset classification corpus text-classification
【讨论】:
最流行的文本分类评估数据集是:
但是,上述数据集不符合“大型”要求。以下数据集可能符合您的条件:
Commoncrawl您可以通过提取在元标记中具有特定关键字的文章并应用于文档分类来构建大型语料库。
Enron Email Dataset你可以在这里做各种不同的分类任务。
Topic Annotated Enron Dataset。不是免费的,但已经标记并满足您的大型语料库要求
你可以浏览其他公开的datasets here
除了上述之外,您可能还需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器,帮助您根据您选择的主题开发自定义语料库
更新:
已经创建了我上面提到的自定义语料库构建器模块,但忘记链接它News Corpus Builder
【讨论】: