【发布时间】:2014-09-07 12:58:44
【问题描述】:
我通过a.get('href') 使用漂亮的汤库从网页获取链接。在链接中有一个奇怪的字符®,但当我得到它时,它变成了®。如何正确编码?我已经在页首添加了# -*- coding: utf-8 -*-
r = requests.get(url)
soup = BeautifulSoup(r.text)
【问题讨论】:
-
没有足够的信息来回答您的问题。如何判断它“变成”“®”?也许只是我们的输出有问题?
-
当我打印字符串时,我在终端输入了那个字符
-
您是如何将页面加载到 BeautifulSoup 中的?它在某处被解码为 Latin1 而不是 UTF-8。 PEP263 注释仅适用于您的源代码,不适用于您加载的任何其他数据。
-
我使用 requests 对象。我正在更新代码
标签: python utf-8 beautifulsoup python-requests mojibake