【发布时间】:2010-12-20 23:35:00
【问题描述】:
根据这个答案:urllib2 read to Unicode
我必须获取内容类型才能更改为 Unicode。但是,有些网站没有“字符集”。
例如,this 页面的 ['content-type'] 是“text/html”。我无法将其转换为 Unicode。
encoding=urlResponse.headers['content-type'].split('charset=')[-1]
htmlSource = unicode(htmlSource, encoding)
TypeError: 'int' object is not callable
是否有默认的“编码”(当然是英文)...如果没有找到,我可以使用它吗?
【问题讨论】:
-
我已经更新了我的评论,如果你喜欢一直使用一个解码功能。
-
AAARRRGGHHH 检查网址,它确实有一个字符集;阅读错误信息,代码隐藏了 unicode() 函数 FFS
-
嘿!我们都没有发现它!
-
@bobince:是的,所以需要一个“我错了”按钮,这样你就可以放弃你的不义之分,但把你的答案留在那里——当然是适当的标签 :-)
标签: python html unicode encoding