【发布时间】:2014-12-18 03:37:14
【问题描述】:
Jacob Perkins 的《Python Text Processing with NLTK 2.0 Cookbook》一书让我熟悉了 NLTK 和文本分类。
我的语料库文档/文本每个都由一段文本组成,因此它们每个都位于单独的文件行中,而不是单独的文件中。这些段落/行的数量约为200万。因此,机器学习实例大约有 200 万个。
我文件中的每一行(一段文本 - 域标题、描述、关键字的组合)都是特征提取的主题:标记化等,使其成为机器学习算法的实例。
我有两个这样的文件,其中包含所有的正面和负面。
如何将它加载到 CategorizedCorpusReader?有可能吗?
我之前尝试过其他解决方案,比如 scikit,最后选择了 NLTK,希望从一个更简单的点开始。
【问题讨论】:
标签: python-2.7 text nltk corpus categorization