【发布时间】:2016-11-03 08:45:51
【问题描述】:
# -*- coding: utf-8 -*-
import urllib.request as request
import re
url = "http://jjo.kr/users/38281748"
raw_data = request.urlopen(url).read() #Bytes
decoded = raw_data.decode("utf-8")
print(decoded)
我试图获取有关该网址的 HTML 信息,但收到错误消息。
UnicodeEncodeError: 'cp949' codec can't encode character '\ufeff' in position 2313: 非法多字节序列
我是不是误解了decode()这个功能?
根据 Python 3.5.2 标准库 decode “返回从给定字节解码的字符串。”。
但我得到的是 cp949 而不是 utf-8 字符串。
谁能告诉我我的代码有什么问题?
【问题讨论】:
-
异常来自哪一行?我假设它来自印刷品,它试图转换为 cp949 以与您的终端一起使用?
标签: python python-3.x encoding utf-8