【发布时间】:2014-06-13 06:56:08
【问题描述】:
我的问题是给定两个训练数据good_reviews.txt 和bad_reviews.txt 对文档进行分类。因此,首先我需要加载和标记我的训练数据,其中每一行都是对应于评论的文档本身。所以我的主要任务是从给定的测试数据中对评论(行)进行分类。
我找到了一种加载和标记名称数据的方法,如下所示:
from nltk.corpus import names
names = ([(name, 'male') for name in names.words('male.txt')] +
[(name, 'female') for name in names.words('female.txt')])
所以我想要的是一个类似的东西,标签lines 而不是words。
我希望代码是这样的,因为.lines 是无效的语法,所以这当然不起作用:
reviews = ([(review, 'good_review') for review in reviews.lines('good_reviews.txt')] +
[(review, 'bad_review') for review in reviews.lines('bad_reviews.txt')])
我想要这样的结果:
>>> reviews[0]
('This shampoo is very good blablabla...', 'good_review')
【问题讨论】:
-
那么,你试过了吗?结果如何?你的代码在哪里,它到底有什么问题?
-
不,它不起作用,因为
.lines是无效语法,并且未在 nltk.corpus 中定义。