【问题标题】:Training a classifier with Textblob from csv in python - encoding issues在 python 中使用来自 csv 的 Textblob 训练分类器 - 编码问题
【发布时间】:2015-03-10 22:31:43
【问题描述】:

我正在尝试通过从 CSV 文件加载我的训练集来使用 Textblob 训练分类器。 CSV 中的文本应为 UTF-8。 当我尝试运行我的代码时:

# -*- coding: utf-8 -*-
from textblob.classifiers import NaiveBayesClassifier
with open('trainingset.csv', 'r') as fp:
   cl = NaiveBayesClassifier(fp, format="csv")

我收到以下错误:

UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 31:    invalid start byte

但是,Texblob 似乎正在使用 UTF-8 对 CSV 进行编码(我查看了 CSV opener 的源代码,可以找到 here)

所以我真的不明白为什么我会收到这个错误。有什么帮助可以解决这个问题吗?

【问题讨论】:

    标签: python csv text encoding textblob


    【解决方案1】:

    你的 python 文件的开头应该有以下行

     # -*- coding: utf-8 -*-
    

    【讨论】:

    • 我确实拥有它。很抱歉没有报告。
    猜你喜欢
    • 2018-07-20
    • 1970-01-01
    • 2019-06-19
    • 2021-04-03
    • 2023-04-09
    • 1970-01-01
    • 2018-11-22
    • 2012-03-05
    • 2019-12-24
    相关资源
    最近更新 更多