【发布时间】:2016-10-15 09:46:14
【问题描述】:
我有一个 utf8 - 可以在 Python 2.7 中轻松阅读的文本语料库:
sentence = codecs.open("D:\\Documents\\files\\sentence.txt", "r", encoding="utf8")
sentence = sentence.read()
> This is my sentence in the right format
但是,当我将此文本语料库传递给列表时(例如,用于标记化):
tokens = sentence.tokenize()
并在笔记本上打印,我得到了类似比特的字符,比如:
(u'\ufeff\ufeffFaux,', u'Tunisie')
(u'Tunisie', u"l'\xc9gypte,")
而我想要普通字符,就像我原来的导入一样。
所以我的问题是:我怎样才能将 unicode 对象传递给一个列表而没有奇怪的位/ASCII 字符?
【问题讨论】:
标签: python python-2.7 unicode nltk python-unicode