美丽的普通话汤答案

【问题标题】：BeautifulSoup for Mandarin美丽的普通话汤
【发布时间】：2016-08-16 09:33:09
【问题描述】：

我正在尝试使用 BeautifulSoup 抓取中文网站。不幸的是，当我这样做时，BeautifulSoup 会找到 html、head 和 body 标签，但在开始和结束 body 标签之间的所有内容都是乱码。我尝试过使用多个解析器，据我所知，只有 html5lib 能够找到所有页面，因为它返回的结果是迄今为止最长的。所以我认为我使用了正确的解析器，但编码是错误的。该网站将“gb2312”列为其编码，但使用该编码，它仍然是乱码。我还尝试了 chardet 来确定返回“windows-1252”的编码，但它似乎也不正确。事实上，我已经经历了许多标准的汉字编码（找到here），但它们都没有返回任何连贯的东西，尽管有些只有一两个汉字。我还为每种可能的 python 编码创建了一个输出文件，但看起来它们都不正确。

除了使用不同的编码之外，我不确定还能尝试什么。任何帮助将不胜感激，谢谢！