【发布时间】:2016-08-16 09:33:09
【问题描述】:
我正在尝试使用 BeautifulSoup 抓取中文网站。不幸的是,当我这样做时,BeautifulSoup 会找到 html、head 和 body 标签,但在开始和结束 body 标签之间的所有内容都是乱码。我尝试过使用多个解析器,据我所知,只有 html5lib 能够找到所有页面,因为它返回的结果是迄今为止最长的。所以我认为我使用了正确的解析器,但编码是错误的。该网站将“gb2312”列为其编码,但使用该编码,它仍然是乱码。我还尝试了 chardet 来确定返回“windows-1252”的编码,但它似乎也不正确。事实上,我已经经历了许多标准的汉字编码(找到here),但它们都没有返回任何连贯的东西,尽管有些只有一两个汉字。我还为每种可能的 python 编码创建了一个输出文件,但看起来它们都不正确。
除了使用不同的编码之外,我不确定还能尝试什么。任何帮助将不胜感激,谢谢!
【问题讨论】:
-
如果提供输出查看会有所帮助,请告诉我,我会弄清楚如何提供它。再次感谢!
标签: python encoding web-scraping