【发布时间】:2015-03-10 22:31:43
【问题描述】:
我正在尝试通过从 CSV 文件加载我的训练集来使用 Textblob 训练分类器。 CSV 中的文本应为 UTF-8。 当我尝试运行我的代码时:
# -*- coding: utf-8 -*-
from textblob.classifiers import NaiveBayesClassifier
with open('trainingset.csv', 'r') as fp:
cl = NaiveBayesClassifier(fp, format="csv")
我收到以下错误:
UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 31: invalid start byte
但是,Texblob 似乎正在使用 UTF-8 对 CSV 进行编码(我查看了 CSV opener 的源代码,可以找到 here)。
所以我真的不明白为什么我会收到这个错误。有什么帮助可以解决这个问题吗?
【问题讨论】:
标签: python csv text encoding textblob