【发布时间】:2018-07-29 03:11:54
【问题描述】:
我有两个电子邮件文件,有些是垃圾邮件,有些是火腿,我正在尝试使用朴素贝叶斯训练分类器,然后在测试集上对其进行测试,我仍在尝试弄清楚该怎么做那个
df = DataFrame()
train=data.sample(frac=0.8,random_state=20)
test=data.drop(train.index)
vectorizer = CountVectorizer()
counts = vectorizer.fit_transform(train['message'].values)
classifier = MultinomialNB()
targets = train['class'].values
classifier.fit(counts, targets)
testing_set = vectorizer.fit_transform(test['message'].values)
predictions = classifier.predict(testing_set)
我认为这不是正确的做法,除此之外,最后一行给了我一个错误。
ValueError: dimension mismatch
【问题讨论】:
标签: python numpy machine-learning scikit-learn naivebayes