【发布时间】:2019-05-10 23:37:04
【问题描述】:
我目前正在编写一个程序,该程序利用 Python NLTK 库来确定评论是正面还是负面。尝试标记每个单词并将其存储在数组中时,我不断收到上述错误。错误行之前和之前的代码行是:
from nltk.tokenize import word_tokenize
...
short_pos = open("reviews/pos_reviews.txt", "r").read()
short_neg = open("reviews/neg_reviews.txt", "r").read()
documents = []
for r in short_pos.split('\n'):
documents.append( (r, "pos") )
for r in short_neg.split('\n'):
documents.append( (r, "neg") )
all_words = []
short_pos_words = word_tokenize(short_pos)
short_neg_words = word_tokenize(short_neg)
倒数第二行是说我有错误的地方。如果我注释掉该行,错误将出现在下一行。我不确定这个错误会出现在哪里,因为我认为我根本没有使用 unicode。任何帮助将不胜感激!
【问题讨论】:
-
你用的是什么版本的python?
-
@candied_orange 我的代码在 v2.7.15 上运行