【发布时间】:2012-01-01 07:48:23
【问题描述】:
我正在做一个新闻分类项目。基本上,该系统将根据预定义的主题(例如体育、政治、国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。
到目前为止,经过几个小时的谷歌搜索和来自here 的链接,我能找到的唯一合适的数据集是this。虽然这已经足够了,但我想我会尝试找到更多。
注意我要的数据集:
- 包含完整的新闻文章,而不仅仅是标题
- 是英文的
- .txt 格式,不是 XML 或 db
有人可以帮助我吗?
【问题讨论】:
标签: text dataset project document-classification