【问题标题】:python nltk.sent_tokenize error ascii codec can't decodepython nltk.sent_tokenize 错误 ascii 编解码器无法解码
【发布时间】:2015-01-28 13:04:19
【问题描述】:

我可以成功地将文本读入一个变量,但是在尝试对文本进行标记时,我遇到了这个奇怪的错误:

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

我知道错误的原因是标记器无法读取/解码的一些特殊字符串/字符,但是如何绕过呢? 谢谢

【问题讨论】:

    标签: python nltk


    【解决方案1】:

    简而言之,NLTK3 的 pos_tag 函数不起作用。

    但是,NLTK2 函数可以正常工作。

    pip 卸载 nltk

    点安装http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

    另一方面,标注器非常糟糕(显然“温室”是一个动词)。我希望 SpaCy 在 Windows 上工作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-02-03
      • 2019-09-01
      • 2017-03-01
      • 2015-11-06
      • 2011-06-29
      • 1970-01-01
      • 2017-03-31
      • 2016-10-03
      相关资源
      最近更新 更多