【发布时间】:2015-07-21 23:08:52
【问题描述】:
我有一个歌曲列表,比如
list2 = ["first song", "second song", "third song"...]
这是我的代码:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
vectorizer = CountVectorizer(stop_words=stopwords.words('english'))
bagOfWords = vectorizer.fit(list2)
bagOfWords = vectorizer.transform(list2)
它正在工作,但我想列出我的话。
我已经尝试过这样做
def tokeni(self,data):
return [SnowballStemmer("english").stem(word) for word in data.split()]
vectorizer = CountVectorizer(stop_words=stopwords.words('english'),
tokenizer=self.tokeni)
但它没有工作。我做错了什么?
更新: 使用分词器,我有诸如“哦...”,“s-like ...”,“膝盖”之类的词 当没有标记器时,我没有任何带有点、逗号等的单词
【问题讨论】:
-
“它不起作用”到底是什么意思?请粘贴/描述您遇到的错误/您如何得出它不起作用的结论。
标签: python python-3.x scikit-learn nltk