大型分类文档语料库答案

【问题标题】：Large classification document corpus大型分类文档语料库
【发布时间】：2015-11-21 16:16:28
【问题描述】：

谁能指出我用于分类的一些大型语料库？

但总的来说，我不是指路透社或 20 个新闻组，我指的是 GB 大小的语料库，而不是 20MB 或类似的大小。

我只能找到这个路透社和 20 个新闻组，这对于我需要的东西来说非常小。

【问题讨论】：

【解决方案1】：

Huge Reddit archive spanning 10/2007 to 5/2015

【讨论】：

谢谢，但这看起来不像是带标签的、可分类的数据集？
标签到底是什么意思？
@maj 我的意思是一个文档语料库，其中每个文档您都知道它属于哪个类别，例如 - 体育、历史、音乐等。
存档是 JSON 格式，因此 tet 很容易解析出来，并且作为 Reddit，组织良好。 r / Drugs和drugs之间的区别是语义恕我直言。它没有完全为 ML 格式化，但它与我见过的任何数据集一样接近，尤其是这种大小和范围的数据集。如果您找到了您正在寻找的东西，请告诉我们，因为我们也可能会用到它。

【解决方案2】：

最流行的文本分类评估数据集是：

但是，上述数据集不符合“大型”要求。以下数据集可能符合您的条件：

你可以浏览其他公开的datasets here

除了上述之外，您可能还需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器，帮助您根据您选择的主题开发自定义语料库

更新：

已经创建了我上面提到的自定义语料库构建器模块，但忘记链接它News Corpus Builder

【讨论】：