【问题标题】:News Article Data Sets [closed]新闻文章数据集[关闭]
【发布时间】:2012-01-01 07:48:23
【问题描述】:

我正在做一个新闻分类项目。基本上,该系统将根据预定义的主题(例如体育、政治、国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。

到目前为止,经过几个小时的谷歌搜索和来自here 的链接,我能找到的唯一合适的数据集是this。虽然这已经足够了,但我想我会尝试找到更多。

注意我要的数据集:

  1. 包含完整的新闻文章,而不仅仅是标题
  2. 是英文的
  3. .txt 格式,不是 XML 或 db

有人可以帮助我吗?

【问题讨论】:

    标签: text dataset project document-classification


    【解决方案1】:

    您是否尝试过使用Reuters21578?它是最常见的文本分类数据集。格式为SGML,但解析转换为txt格式非常简单。

    【讨论】:

      【解决方案2】:

      你可以构建它,你可以编写一个 Python/Perl/PHP 脚本来运行搜索,然后当你找到答案时,你可以用正则表达式隔离属性......我认为这是最好的选择。不容易,但应该很有趣,终于可以和我们分享这个数据集了。

      【讨论】:

      • 是的,我正在寻找数据集,因为我将忙于项目,所以我尝试减少要做的事情。此外,我不知道如何用 Python/Perl/PHP 编写脚本。
      猜你喜欢
      • 2018-06-12
      • 1970-01-01
      • 2014-10-03
      • 2016-12-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多