【发布时间】:2017-04-12 14:22:05
【问题描述】:
首先,我是 python 和 nlp / 机器学习的新手。 现在我有以下代码:
vectorizer = CountVectorizer(
input="content",
decode_error="ignore",
strip_accents=None,
stop_words = stopwords.words('english'),
tokenizer=myTokenizer
)
counts = vectorizer.fit_transform(data['message'].values)
classifier = MultinomialNB()
targets = data['sentiment'].values
classifier.fit(counts, targets)
现在这实际上工作得很好。我通过CountVectorizer 得到一个稀疏矩阵,classifier 使用矩阵以及目标(0,2,4)。
但是,如果我想在向量中使用更多特征而不仅仅是字数,我该怎么办?我似乎无法找到它。提前谢谢你。
【问题讨论】:
标签: python scikit-learn nlp naivebayes countvectorizer