【发布时间】:2015-07-10 16:14:13
【问题描述】:
我正在尝试标记 twitter 文本。 当我对每个推特文本应用函数 nltk.word_tokenize() 时,即使对于一些非常丑陋的文本,它也能完美运行,例如
'\xd8\xb3\xd8\xa3\xd9\x87\xd9\x8e\xd9\x85\xd9\x90\xd8\xb3\xd9\x8f',
'\xd9\x82\xd9\x90\xd8\xb5\xd9\x8e\xd9\x91\xd8\xa9\xd9\x8b', '\xd8\xad\xd8\xaa\xd9\x89'
但是当我遍历文件中的所有推特时
tokens = []
for i in range(0,5047591):
s = ','.join(l_of_l[i])
tokens += nltk.word_tokenize(s)
它返回错误,例如:
UnicodeDecodeError:“ascii”编解码器无法解码位置 2 中的字节 0xc3:序数不在范围内(128)文件 “/Library/Python/2.7/site-packages/nltk/tokenize/punkt.py”,第 1304 行, 在 _realign_boundaries 对于 _pair_iter(slices) 中的 sl1、sl2:
还有更多
关于如何修复它的任何建议?
【问题讨论】:
标签: python twitter nlp nltk tokenize