【发布时间】:2017-03-21 08:05:56
【问题描述】:
我在 Windows 7 中使用 python 3.3。
if "iso-8859-1" in str(source):
source = source.decode('iso-8859-1')
if "utf-8" in str(source):
source = source.decode('utf-8')
所以,目前我的申请仅对上述两个字符集有效......但我想涵盖所有可能的字符集。
实际上,我是从网站的源头手动查找这些字符集的,并且我体验到世界上所有的网站都不仅仅来自这两个。有时网站不会在其 HTML 源代码中显示其字符集!所以,我的应用程序无法继续前进!
我应该怎么做才能自动检测字符集并根据它进行解码? 如果可能,请尝试让我深入了解并提供示例。您也可以推荐重要的链接。
【问题讨论】:
-
chardet模块试图预测其输入的编码,但有时它显然会出错。 -
我已经尝试查看
chardet,但我没有了解如何实施! python有什么模块吗?还是在 python3 中是不可能的? -
还有一个 Python3 端口。谷歌是你的朋友。 getpython3.com/diveintopython3/…
-
好的...我会尝试的。但是我们还有其他选择来解决这个问题吗?
标签: python html python-3.x character-encoding python-3.3