【发布时间】:2015-01-28 13:04:19
【问题描述】:
我可以成功地将文本读入一个变量,但是在尝试对文本进行标记时,我遇到了这个奇怪的错误:
sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)
我知道错误的原因是标记器无法读取/解码的一些特殊字符串/字符,但是如何绕过呢? 谢谢
【问题讨论】: