python nltk.sent_tokenize 错误 ascii 编解码器无法解码

【问题标题】：python nltk.sent_tokenize error ascii codec can't decodepython nltk.sent_tokenize 错误 ascii 编解码器无法解码
【发布时间】：2015-01-28 13:04:19
【问题描述】：

我可以成功地将文本读入一个变量，但是在尝试对文本进行标记时，我遇到了这个奇怪的错误：

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

我知道错误的原因是标记器无法读取/解码的一些特殊字符串/字符，但是如何绕过呢？谢谢

【问题讨论】：

标签： python nltk

【解决方案1】：

简而言之，NLTK3 的 pos_tag 函数不起作用。

但是，NLTK2 函数可以正常工作。

pip 卸载 nltk

点安装http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

另一方面，标注器非常糟糕（显然“温室”是一个动词）。我希望 SpaCy 在 Windows 上工作。

【讨论】：