【发布时间】:2015-01-17 16:33:30
【问题描述】:
我正在尝试不同的方法来使 NLTK 的朴素贝叶斯使用 NLTK 和 Pandas 模块工作,但我收到“太多值无法解包”错误。
import pandas as pd
from pandas import DataFrame, Series
import numpy as np
import re
import nltk
### Remove cases with missing name or missing ethnicity information
def read_file():
data = pd.read_csv("C:\sample.csv", encoding="utf-8")
frame = DataFrame(data)
frame.columns = ["Name", "Gender"]
return frame
#read_file()
def gender_features(word):
return {'last_letter': word[-1]}
#gender_features()
frame = read_file()
featuresets = [(gender_features(n), gender) for (n, gender) in frame]
train_set, test_set = features[500:], featuresets[:500]
classifier = nltkNaiveBayesClassifier.train(train_set)
【问题讨论】:
-
您在哪一行得到错误?您能否从您的
sample.csv中提供两条示例行? -
顺便说一句,在没有人回答您的旧问题后,您因重复问题而被抓到。
-
您的代码也无法编译和运行...
-
谢谢,我对 Pandas 和 nltk 都很陌生,我将代码搁置了几天,并认为我正在尝试一些新的东西,这两个帖子是不同的,因为我正在尝试一些示例数据集和我自己的数据集,但回想起来它们不应该是两个不同的帖子,我已经删除了之前的帖子,希望它从公众视野中删除。
标签: pandas python-2.7 machine-learning nlp nltk